{
  "cells": [
    {
      "cell_type": "markdown",
      "metadata": {
        "id": "1QiCFLer1FIe"
      },
      "source": [
        "**Lab 10 – Data cleaning and feature engineering**"
      ]
    },
    {
      "cell_type": "markdown",
      "metadata": {
        "id": "vCyq3-8y1FIj"
      },
      "source": [
        "_This notebook contains the sample from https://www.kaggle.com/learn/feature-engineering, https://www.kaggle.com/learn/data-cleaning_, https://madewithml.com/courses/mlops/preprocessing/, https://github.com/microsoft/Data-Science-For-Beginners/blob/main/2-Working-With-Data/08-data-preparation/README.md, https://scikit-learn.org/stable/modules/preprocessing.html# and https://www.books.com.tw/products/0010883417 "
      ]
    },
    {
      "cell_type": "markdown",
      "metadata": {
        "id": "9J5g6PDs1FIk"
      },
      "source": [
        "<table align=\"left\">\n",
        "  <td>\n",
        "    <a href=\"https://colab.research.google.com/github/phonchi/nsysu-math604/blob/master/static_files/presentations/10_Clean_feature_engineering.ipynb\" target=\"_parent\"><img src=\"https://colab.research.google.com/assets/colab-badge.svg\" alt=\"Open In Colab\"/></a>\n",
        "  </td>\n",
        "  <td>\n",
        "    <a target=\"_blank\" href=\"https://kaggle.com/kernels/welcome?src=https://github.com/phonchi/nsysu-math604/blob/master/static_files/presentations/10_Clean_feature_engineering.ipynb\"><img src=\"https://kaggle.com/static/images/open-in-kaggle.svg\" /></a>\n",
        "  </td>\n",
        "</table>"
      ]
    },
    {
      "cell_type": "code",
      "source": [
        "!pip install fancyimpute -q\n",
        "!pip install thefuzz -q\n",
        "!pip install --upgrade xlrd -q\n",
        "!pip install category_encoders -q"
      ],
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/"
        },
        "id": "-BFRBxSXe8Bw",
        "outputId": "4d104b88-a30a-4749-a54d-3e22420b2a45"
      },
      "execution_count": 1,
      "outputs": [
        {
          "output_type": "stream",
          "name": "stdout",
          "text": [
            "\u001b[?25l\r\u001b[K     |██▏                             | 10 kB 14.6 MB/s eta 0:00:01\r\u001b[K     |████▎                           | 20 kB 18.1 MB/s eta 0:00:01\r\u001b[K     |██████▍                         | 30 kB 21.3 MB/s eta 0:00:01\r\u001b[K     |████████▌                       | 40 kB 23.9 MB/s eta 0:00:01\r\u001b[K     |██████████▋                     | 51 kB 6.5 MB/s eta 0:00:01\r\u001b[K     |████████████▊                   | 61 kB 7.6 MB/s eta 0:00:01\r\u001b[K     |██████████████▉                 | 71 kB 6.0 MB/s eta 0:00:01\r\u001b[K     |█████████████████               | 81 kB 6.6 MB/s eta 0:00:01\r\u001b[K     |███████████████████             | 92 kB 7.4 MB/s eta 0:00:01\r\u001b[K     |█████████████████████▏          | 102 kB 8.0 MB/s eta 0:00:01\r\u001b[K     |███████████████████████▎        | 112 kB 8.0 MB/s eta 0:00:01\r\u001b[K     |█████████████████████████▍      | 122 kB 8.0 MB/s eta 0:00:01\r\u001b[K     |███████████████████████████▌    | 133 kB 8.0 MB/s eta 0:00:01\r\u001b[K     |█████████████████████████████▋  | 143 kB 8.0 MB/s eta 0:00:01\r\u001b[K     |███████████████████████████████▊| 153 kB 8.0 MB/s eta 0:00:01\r\u001b[K     |████████████████████████████████| 154 kB 8.0 MB/s \n",
            "\u001b[?25h  Building wheel for fancyimpute (setup.py) ... \u001b[?25l\u001b[?25hdone\n",
            "  Building wheel for knnimpute (setup.py) ... \u001b[?25l\u001b[?25hdone\n",
            "\u001b[K     |████████████████████████████████| 96 kB 2.6 MB/s \n",
            "\u001b[K     |████████████████████████████████| 86 kB 2.9 MB/s \n",
            "\u001b[?25h"
          ]
        }
      ]
    },
    {
      "cell_type": "code",
      "source": [
        "import numpy as np\n",
        "import pandas as pd\n",
        "import seaborn as sns\n",
        "\n",
        "from sklearn.impute import SimpleImputer\n",
        "from sklearn.ensemble import ExtraTreesRegressor\n",
        "from sklearn.experimental import enable_iterative_imputer\n",
        "from sklearn.impute import IterativeImputer\n",
        "from sklearn.impute import KNNImputer\n",
        "from sklearn.ensemble import RandomForestRegressor\n",
        "from sklearn.model_selection import cross_val_score\n",
        "from sklearn.preprocessing import StandardScaler\n",
        "from sklearn.preprocessing import MinMaxScaler\n",
        "from sklearn.preprocessing import PowerTransformer\n",
        "from sklearn.preprocessing import QuantileTransformer\n",
        "from sklearn.preprocessing import OneHotEncoder\n",
        "from sklearn.preprocessing import OrdinalEncoder\n",
        "from sklearn.model_selection import GroupKFold, train_test_split\n",
        "\n",
        "from fancyimpute import SoftImpute\n",
        "\n",
        "# helpful character encoding module\n",
        "import chardet\n",
        "from thefuzz import fuzz\n",
        "from thefuzz import process\n",
        "\n",
        "from category_encoders import MEstimateEncoder\n",
        "from category_encoders.wrapper import NestedCVWrapper\n",
        "\n",
        "import matplotlib as mpl\n",
        "from matplotlib import pyplot as plt\n",
        "%matplotlib inline"
      ],
      "metadata": {
        "id": "5bV_HvPiH-9i"
      },
      "execution_count": 3,
      "outputs": []
    },
    {
      "cell_type": "markdown",
      "source": [
        "## Handling missing value"
      ],
      "metadata": {
        "id": "6sb3RBiSo4Vf"
      }
    },
    {
      "cell_type": "markdown",
      "source": [
        "In this course, you'll learn why you've run into the data cleaning problems and, more importantly, how to fix them! In this section, you’ll learn how to tackle some of the most common data cleaning problems so you can get to actually analyzing your data faster. "
      ],
      "metadata": {
        "id": "qvr5MUX8pFwO"
      }
    },
    {
      "cell_type": "markdown",
      "source": [
        "### Take a first look at the data\n",
        "\n",
        "For demonstration, we'll use a dataset of events that occured in American Football games. You'll apply your new skills to a dataset of building permits issued in San Francisco."
      ],
      "metadata": {
        "id": "OvNovWe2Hobw"
      }
    },
    {
      "cell_type": "code",
      "source": [
        "# Upload the API’s key JSON file to your Colab\n",
        "# session by running the following code in a notebook cell:\n",
        "from google.colab import files\n",
        "files.upload()"
      ],
      "metadata": {
        "colab": {
          "resources": {
            "http://localhost:8080/nbextensions/google.colab/files.js": {
              "data": "Ly8gQ29weXJpZ2h0IDIwMTcgR29vZ2xlIExMQwovLwovLyBMaWNlbnNlZCB1bmRlciB0aGUgQXBhY2hlIExpY2Vuc2UsIFZlcnNpb24gMi4wICh0aGUgIkxpY2Vuc2UiKTsKLy8geW91IG1heSBub3QgdXNlIHRoaXMgZmlsZSBleGNlcHQgaW4gY29tcGxpYW5jZSB3aXRoIHRoZSBMaWNlbnNlLgovLyBZb3UgbWF5IG9idGFpbiBhIGNvcHkgb2YgdGhlIExpY2Vuc2UgYXQKLy8KLy8gICAgICBodHRwOi8vd3d3LmFwYWNoZS5vcmcvbGljZW5zZXMvTElDRU5TRS0yLjAKLy8KLy8gVW5sZXNzIHJlcXVpcmVkIGJ5IGFwcGxpY2FibGUgbGF3IG9yIGFncmVlZCB0byBpbiB3cml0aW5nLCBzb2Z0d2FyZQovLyBkaXN0cmlidXRlZCB1bmRlciB0aGUgTGljZW5zZSBpcyBkaXN0cmlidXRlZCBvbiBhbiAiQVMgSVMiIEJBU0lTLAovLyBXSVRIT1VUIFdBUlJBTlRJRVMgT1IgQ09ORElUSU9OUyBPRiBBTlkgS0lORCwgZWl0aGVyIGV4cHJlc3Mgb3IgaW1wbGllZC4KLy8gU2VlIHRoZSBMaWNlbnNlIGZvciB0aGUgc3BlY2lmaWMgbGFuZ3VhZ2UgZ292ZXJuaW5nIHBlcm1pc3Npb25zIGFuZAovLyBsaW1pdGF0aW9ucyB1bmRlciB0aGUgTGljZW5zZS4KCi8qKgogKiBAZmlsZW92ZXJ2aWV3IEhlbHBlcnMgZm9yIGdvb2dsZS5jb2xhYiBQeXRob24gbW9kdWxlLgogKi8KKGZ1bmN0aW9uKHNjb3BlKSB7CmZ1bmN0aW9uIHNwYW4odGV4dCwgc3R5bGVBdHRyaWJ1dGVzID0ge30pIHsKICBjb25zdCBlbGVtZW50ID0gZG9jdW1lbnQuY3JlYXRlRWxlbWVudCgnc3BhbicpOwogIGVsZW1lbnQudGV4dENvbnRlbnQgPSB0ZXh0OwogIGZvciAoY29uc3Qga2V5IG9mIE9iamVjdC5rZXlzKHN0eWxlQXR0cmlidXRlcykpIHsKICAgIGVsZW1lbnQuc3R5bGVba2V5XSA9IHN0eWxlQXR0cmlidXRlc1trZXldOwogIH0KICByZXR1cm4gZWxlbWVudDsKfQoKLy8gTWF4IG51bWJlciBvZiBieXRlcyB3aGljaCB3aWxsIGJlIHVwbG9hZGVkIGF0IGEgdGltZS4KY29uc3QgTUFYX1BBWUxPQURfU0laRSA9IDEwMCAqIDEwMjQ7CgpmdW5jdGlvbiBfdXBsb2FkRmlsZXMoaW5wdXRJZCwgb3V0cHV0SWQpIHsKICBjb25zdCBzdGVwcyA9IHVwbG9hZEZpbGVzU3RlcChpbnB1dElkLCBvdXRwdXRJZCk7CiAgY29uc3Qgb3V0cHV0RWxlbWVudCA9IGRvY3VtZW50LmdldEVsZW1lbnRCeUlkKG91dHB1dElkKTsKICAvLyBDYWNoZSBzdGVwcyBvbiB0aGUgb3V0cHV0RWxlbWVudCB0byBtYWtlIGl0IGF2YWlsYWJsZSBmb3IgdGhlIG5leHQgY2FsbAogIC8vIHRvIHVwbG9hZEZpbGVzQ29udGludWUgZnJvbSBQeXRob24uCiAgb3V0cHV0RWxlbWVudC5zdGVwcyA9IHN0ZXBzOwoKICByZXR1cm4gX3VwbG9hZEZpbGVzQ29udGludWUob3V0cHV0SWQpOwp9CgovLyBUaGlzIGlzIHJvdWdobHkgYW4gYXN5bmMgZ2VuZXJhdG9yIChub3Qgc3VwcG9ydGVkIGluIHRoZSBicm93c2VyIHlldCksCi8vIHdoZXJlIHRoZXJlIGFyZSBtdWx0aXBsZSBhc3luY2hyb25vdXMgc3RlcHMgYW5kIHRoZSBQeXRob24gc2lkZSBpcyBnb2luZwovLyB0byBwb2xsIGZvciBjb21wbGV0aW9uIG9mIGVhY2ggc3RlcC4KLy8gVGhpcyB1c2VzIGEgUHJvbWlzZSB0byBibG9jayB0aGUgcHl0aG9uIHNpZGUgb24gY29tcGxldGlvbiBvZiBlYWNoIHN0ZXAsCi8vIHRoZW4gcGFzc2VzIHRoZSByZXN1bHQgb2YgdGhlIHByZXZpb3VzIHN0ZXAgYXMgdGhlIGlucHV0IHRvIHRoZSBuZXh0IHN0ZXAuCmZ1bmN0aW9uIF91cGxvYWRGaWxlc0NvbnRpbnVlKG91dHB1dElkKSB7CiAgY29uc3Qgb3V0cHV0RWxlbWVudCA9IGRvY3VtZW50LmdldEVsZW1lbnRCeUlkKG91dHB1dElkKTsKICBjb25zdCBzdGVwcyA9IG91dHB1dEVsZW1lbnQuc3RlcHM7CgogIGNvbnN0IG5leHQgPSBzdGVwcy5uZXh0KG91dHB1dEVsZW1lbnQubGFzdFByb21pc2VWYWx1ZSk7CiAgcmV0dXJuIFByb21pc2UucmVzb2x2ZShuZXh0LnZhbHVlLnByb21pc2UpLnRoZW4oKHZhbHVlKSA9PiB7CiAgICAvLyBDYWNoZSB0aGUgbGFzdCBwcm9taXNlIHZhbHVlIHRvIG1ha2UgaXQgYXZhaWxhYmxlIHRvIHRoZSBuZXh0CiAgICAvLyBzdGVwIG9mIHRoZSBnZW5lcmF0b3IuCiAgICBvdXRwdXRFbGVtZW50Lmxhc3RQcm9taXNlVmFsdWUgPSB2YWx1ZTsKICAgIHJldHVybiBuZXh0LnZhbHVlLnJlc3BvbnNlOwogIH0pOwp9CgovKioKICogR2VuZXJhdG9yIGZ1bmN0aW9uIHdoaWNoIGlzIGNhbGxlZCBiZXR3ZWVuIGVhY2ggYXN5bmMgc3RlcCBvZiB0aGUgdXBsb2FkCiAqIHByb2Nlc3MuCiAqIEBwYXJhbSB7c3RyaW5nfSBpbnB1dElkIEVsZW1lbnQgSUQgb2YgdGhlIGlucHV0IGZpbGUgcGlja2VyIGVsZW1lbnQuCiAqIEBwYXJhbSB7c3RyaW5nfSBvdXRwdXRJZCBFbGVtZW50IElEIG9mIHRoZSBvdXRwdXQgZGlzcGxheS4KICogQHJldHVybiB7IUl0ZXJhYmxlPCFPYmplY3Q+fSBJdGVyYWJsZSBvZiBuZXh0IHN0ZXBzLgogKi8KZnVuY3Rpb24qIHVwbG9hZEZpbGVzU3RlcChpbnB1dElkLCBvdXRwdXRJZCkgewogIGNvbnN0IGlucHV0RWxlbWVudCA9IGRvY3VtZW50LmdldEVsZW1lbnRCeUlkKGlucHV0SWQpOwogIGlucHV0RWxlbWVudC5kaXNhYmxlZCA9IGZhbHNlOwoKICBjb25zdCBvdXRwdXRFbGVtZW50ID0gZG9jdW1lbnQuZ2V0RWxlbWVudEJ5SWQob3V0cHV0SWQpOwogIG91dHB1dEVsZW1lbnQuaW5uZXJIVE1MID0gJyc7CgogIGNvbnN0IHBpY2tlZFByb21pc2UgPSBuZXcgUHJvbWlzZSgocmVzb2x2ZSkgPT4gewogICAgaW5wdXRFbGVtZW50LmFkZEV2ZW50TGlzdGVuZXIoJ2NoYW5nZScsIChlKSA9PiB7CiAgICAgIHJlc29sdmUoZS50YXJnZXQuZmlsZXMpOwogICAgfSk7CiAgfSk7CgogIGNvbnN0IGNhbmNlbCA9IGRvY3VtZW50LmNyZWF0ZUVsZW1lbnQoJ2J1dHRvbicpOwogIGlucHV0RWxlbWVudC5wYXJlbnRFbGVtZW50LmFwcGVuZENoaWxkKGNhbmNlbCk7CiAgY2FuY2VsLnRleHRDb250ZW50ID0gJ0NhbmNlbCB1cGxvYWQnOwogIGNvbnN0IGNhbmNlbFByb21pc2UgPSBuZXcgUHJvbWlzZSgocmVzb2x2ZSkgPT4gewogICAgY2FuY2VsLm9uY2xpY2sgPSAoKSA9PiB7CiAgICAgIHJlc29sdmUobnVsbCk7CiAgICB9OwogIH0pOwoKICAvLyBXYWl0IGZvciB0aGUgdXNlciB0byBwaWNrIHRoZSBmaWxlcy4KICBjb25zdCBmaWxlcyA9IHlpZWxkIHsKICAgIHByb21pc2U6IFByb21pc2UucmFjZShbcGlja2VkUHJvbWlzZSwgY2FuY2VsUHJvbWlzZV0pLAogICAgcmVzcG9uc2U6IHsKICAgICAgYWN0aW9uOiAnc3RhcnRpbmcnLAogICAgfQogIH07CgogIGNhbmNlbC5yZW1vdmUoKTsKCiAgLy8gRGlzYWJsZSB0aGUgaW5wdXQgZWxlbWVudCBzaW5jZSBmdXJ0aGVyIHBpY2tzIGFyZSBub3QgYWxsb3dlZC4KICBpbnB1dEVsZW1lbnQuZGlzYWJsZWQgPSB0cnVlOwoKICBpZiAoIWZpbGVzKSB7CiAgICByZXR1cm4gewogICAgICByZXNwb25zZTogewogICAgICAgIGFjdGlvbjogJ2NvbXBsZXRlJywKICAgICAgfQogICAgfTsKICB9CgogIGZvciAoY29uc3QgZmlsZSBvZiBmaWxlcykgewogICAgY29uc3QgbGkgPSBkb2N1bWVudC5jcmVhdGVFbGVtZW50KCdsaScpOwogICAgbGkuYXBwZW5kKHNwYW4oZmlsZS5uYW1lLCB7Zm9udFdlaWdodDogJ2JvbGQnfSkpOwogICAgbGkuYXBwZW5kKHNwYW4oCiAgICAgICAgYCgke2ZpbGUudHlwZSB8fCAnbi9hJ30pIC0gJHtmaWxlLnNpemV9IGJ5dGVzLCBgICsKICAgICAgICBgbGFzdCBtb2RpZmllZDogJHsKICAgICAgICAgICAgZmlsZS5sYXN0TW9kaWZpZWREYXRlID8gZmlsZS5sYXN0TW9kaWZpZWREYXRlLnRvTG9jYWxlRGF0ZVN0cmluZygpIDoKICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgJ24vYSd9IC0gYCkpOwogICAgY29uc3QgcGVyY2VudCA9IHNwYW4oJzAlIGRvbmUnKTsKICAgIGxpLmFwcGVuZENoaWxkKHBlcmNlbnQpOwoKICAgIG91dHB1dEVsZW1lbnQuYXBwZW5kQ2hpbGQobGkpOwoKICAgIGNvbnN0IGZpbGVEYXRhUHJvbWlzZSA9IG5ldyBQcm9taXNlKChyZXNvbHZlKSA9PiB7CiAgICAgIGNvbnN0IHJlYWRlciA9IG5ldyBGaWxlUmVhZGVyKCk7CiAgICAgIHJlYWRlci5vbmxvYWQgPSAoZSkgPT4gewogICAgICAgIHJlc29sdmUoZS50YXJnZXQucmVzdWx0KTsKICAgICAgfTsKICAgICAgcmVhZGVyLnJlYWRBc0FycmF5QnVmZmVyKGZpbGUpOwogICAgfSk7CiAgICAvLyBXYWl0IGZvciB0aGUgZGF0YSB0byBiZSByZWFkeS4KICAgIGxldCBmaWxlRGF0YSA9IHlpZWxkIHsKICAgICAgcHJvbWlzZTogZmlsZURhdGFQcm9taXNlLAogICAgICByZXNwb25zZTogewogICAgICAgIGFjdGlvbjogJ2NvbnRpbnVlJywKICAgICAgfQogICAgfTsKCiAgICAvLyBVc2UgYSBjaHVua2VkIHNlbmRpbmcgdG8gYXZvaWQgbWVzc2FnZSBzaXplIGxpbWl0cy4gU2VlIGIvNjIxMTU2NjAuCiAgICBsZXQgcG9zaXRpb24gPSAwOwogICAgZG8gewogICAgICBjb25zdCBsZW5ndGggPSBNYXRoLm1pbihmaWxlRGF0YS5ieXRlTGVuZ3RoIC0gcG9zaXRpb24sIE1BWF9QQVlMT0FEX1NJWkUpOwogICAgICBjb25zdCBjaHVuayA9IG5ldyBVaW50OEFycmF5KGZpbGVEYXRhLCBwb3NpdGlvbiwgbGVuZ3RoKTsKICAgICAgcG9zaXRpb24gKz0gbGVuZ3RoOwoKICAgICAgY29uc3QgYmFzZTY0ID0gYnRvYShTdHJpbmcuZnJvbUNoYXJDb2RlLmFwcGx5KG51bGwsIGNodW5rKSk7CiAgICAgIHlpZWxkIHsKICAgICAgICByZXNwb25zZTogewogICAgICAgICAgYWN0aW9uOiAnYXBwZW5kJywKICAgICAgICAgIGZpbGU6IGZpbGUubmFtZSwKICAgICAgICAgIGRhdGE6IGJhc2U2NCwKICAgICAgICB9LAogICAgICB9OwoKICAgICAgbGV0IHBlcmNlbnREb25lID0gZmlsZURhdGEuYnl0ZUxlbmd0aCA9PT0gMCA/CiAgICAgICAgICAxMDAgOgogICAgICAgICAgTWF0aC5yb3VuZCgocG9zaXRpb24gLyBmaWxlRGF0YS5ieXRlTGVuZ3RoKSAqIDEwMCk7CiAgICAgIHBlcmNlbnQudGV4dENvbnRlbnQgPSBgJHtwZXJjZW50RG9uZX0lIGRvbmVgOwoKICAgIH0gd2hpbGUgKHBvc2l0aW9uIDwgZmlsZURhdGEuYnl0ZUxlbmd0aCk7CiAgfQoKICAvLyBBbGwgZG9uZS4KICB5aWVsZCB7CiAgICByZXNwb25zZTogewogICAgICBhY3Rpb246ICdjb21wbGV0ZScsCiAgICB9CiAgfTsKfQoKc2NvcGUuZ29vZ2xlID0gc2NvcGUuZ29vZ2xlIHx8IHt9OwpzY29wZS5nb29nbGUuY29sYWIgPSBzY29wZS5nb29nbGUuY29sYWIgfHwge307CnNjb3BlLmdvb2dsZS5jb2xhYi5fZmlsZXMgPSB7CiAgX3VwbG9hZEZpbGVzLAogIF91cGxvYWRGaWxlc0NvbnRpbnVlLAp9Owp9KShzZWxmKTsK",
              "ok": true,
              "headers": [
                [
                  "content-type",
                  "application/javascript"
                ]
              ],
              "status": 200,
              "status_text": ""
            }
          },
          "base_uri": "https://localhost:8080/",
          "height": 92
        },
        "id": "TYy9ckT3HZUc",
        "outputId": "13093e67-0013-4e9f-b3d8-eedfc11a997a"
      },
      "execution_count": 4,
      "outputs": [
        {
          "output_type": "display_data",
          "data": {
            "text/plain": [
              "<IPython.core.display.HTML object>"
            ],
            "text/html": [
              "\n",
              "     <input type=\"file\" id=\"files-9e3fe59d-07cb-4769-943c-783e14871c7d\" name=\"files[]\" multiple disabled\n",
              "        style=\"border:none\" />\n",
              "     <output id=\"result-9e3fe59d-07cb-4769-943c-783e14871c7d\">\n",
              "      Upload widget is only available when the cell has been executed in the\n",
              "      current browser session. Please rerun this cell to enable.\n",
              "      </output>\n",
              "      <script src=\"/nbextensions/google.colab/files.js\"></script> "
            ]
          },
          "metadata": {}
        },
        {
          "output_type": "stream",
          "name": "stdout",
          "text": [
            "Saving kaggle.json to kaggle.json\n"
          ]
        },
        {
          "output_type": "execute_result",
          "data": {
            "text/plain": [
              "{'kaggle.json': b'{\"username\":\"phonchi\",\"key\":\"543eb33eabf413fb77a6b374f96ccfca\"}'}"
            ]
          },
          "metadata": {},
          "execution_count": 4
        }
      ]
    },
    {
      "cell_type": "code",
      "source": [
        "!mkdir ~/.kaggle\n",
        "!cp kaggle.json ~/.kaggle/\n",
        "!chmod 600 ~/.kaggle/kaggle.json"
      ],
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/"
        },
        "id": "VNodHm_dHasj",
        "outputId": "5d80d38a-a7df-4629-c5a6-bbaa0f0de41b"
      },
      "execution_count": 5,
      "outputs": [
        {
          "output_type": "stream",
          "name": "stdout",
          "text": [
            "mkdir: cannot create directory ‘/root/.kaggle’: File exists\n"
          ]
        }
      ]
    },
    {
      "cell_type": "code",
      "source": [
        "!kaggle datasets download -d maxhorowitz/nflplaybyplay2009to2016"
      ],
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/"
        },
        "id": "r5e40YRFG33c",
        "outputId": "a5cabf48-0e31-462a-f0a7-5515d493d464"
      },
      "execution_count": 10,
      "outputs": [
        {
          "output_type": "stream",
          "name": "stdout",
          "text": [
            "Downloading nflplaybyplay2009to2016.zip to /content\n",
            " 94% 258M/274M [00:01<00:00, 151MB/s]\n",
            "100% 274M/274M [00:01<00:00, 145MB/s]\n"
          ]
        }
      ]
    },
    {
      "cell_type": "code",
      "source": [
        "!unzip -qq nflplaybyplay2009to2016"
      ],
      "metadata": {
        "id": "AzG450eiHmfD"
      },
      "execution_count": 11,
      "outputs": []
    },
    {
      "cell_type": "code",
      "source": [
        "# read in all our data\n",
        "nfl_data = pd.read_csv(\"NFL Play by Play 2009-2017 (v4).csv\")\n",
        "\n",
        "# set seed for reproducibility\n",
        "np.random.seed(0) "
      ],
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/"
        },
        "id": "fbcx3ZlRFAoq",
        "outputId": "95c7e597-07fb-4158-a989-8d53c811b5ff"
      },
      "execution_count": 12,
      "outputs": [
        {
          "output_type": "stream",
          "name": "stderr",
          "text": [
            "/usr/local/lib/python3.7/dist-packages/IPython/core/interactiveshell.py:2882: DtypeWarning: Columns (25,51) have mixed types.Specify dtype option on import or set low_memory=False.\n",
            "  exec(code_obj, self.user_global_ns, self.user_ns)\n"
          ]
        }
      ]
    },
    {
      "cell_type": "markdown",
      "source": [
        "The first thing to do when you get a new dataset is take a look at some of it. This lets you see that it all read in correctly and gives an idea of what's going on with the data. In this case, let's see if there are any missing values, which will be reprsented with `NaN` or `None`."
      ],
      "metadata": {
        "id": "CFpSwmOJIDS_"
      }
    },
    {
      "cell_type": "code",
      "source": [
        "# look at the first five rows of the nfl_data file. \n",
        "# I can see a handful of missing data already!\n",
        "nfl_data.head()"
      ],
      "metadata": {
        "id": "BnVn82RDGyQu",
        "colab": {
          "base_uri": "https://localhost:8080/",
          "height": 386
        },
        "outputId": "3ff773ac-6c4e-4918-891d-d34ed28c8f7e"
      },
      "execution_count": 13,
      "outputs": [
        {
          "output_type": "execute_result",
          "data": {
            "text/plain": [
              "         Date      GameID  Drive  qtr  down   time  TimeUnder  TimeSecs  \\\n",
              "0  2009-09-10  2009091000      1    1   NaN  15:00         15    3600.0   \n",
              "1  2009-09-10  2009091000      1    1   1.0  14:53         15    3593.0   \n",
              "2  2009-09-10  2009091000      1    1   2.0  14:16         15    3556.0   \n",
              "3  2009-09-10  2009091000      1    1   3.0  13:35         14    3515.0   \n",
              "4  2009-09-10  2009091000      1    1   4.0  13:27         14    3507.0   \n",
              "\n",
              "   PlayTimeDiff SideofField  ...    yacEPA  Home_WP_pre  Away_WP_pre  \\\n",
              "0           0.0         TEN  ...       NaN     0.485675     0.514325   \n",
              "1           7.0         PIT  ...  1.146076     0.546433     0.453567   \n",
              "2          37.0         PIT  ...       NaN     0.551088     0.448912   \n",
              "3          41.0         PIT  ... -5.031425     0.510793     0.489207   \n",
              "4           8.0         PIT  ...       NaN     0.461217     0.538783   \n",
              "\n",
              "   Home_WP_post  Away_WP_post  Win_Prob       WPA    airWPA    yacWPA  Season  \n",
              "0      0.546433      0.453567  0.485675  0.060758       NaN       NaN    2009  \n",
              "1      0.551088      0.448912  0.546433  0.004655 -0.032244  0.036899    2009  \n",
              "2      0.510793      0.489207  0.551088 -0.040295       NaN       NaN    2009  \n",
              "3      0.461217      0.538783  0.510793 -0.049576  0.106663 -0.156239    2009  \n",
              "4      0.558929      0.441071  0.461217  0.097712       NaN       NaN    2009  \n",
              "\n",
              "[5 rows x 102 columns]"
            ],
            "text/html": [
              "\n",
              "  <div id=\"df-5a9d13e5-497a-40a3-bc24-4ed6c1017a0f\">\n",
              "    <div class=\"colab-df-container\">\n",
              "      <div>\n",
              "<style scoped>\n",
              "    .dataframe tbody tr th:only-of-type {\n",
              "        vertical-align: middle;\n",
              "    }\n",
              "\n",
              "    .dataframe tbody tr th {\n",
              "        vertical-align: top;\n",
              "    }\n",
              "\n",
              "    .dataframe thead th {\n",
              "        text-align: right;\n",
              "    }\n",
              "</style>\n",
              "<table border=\"1\" class=\"dataframe\">\n",
              "  <thead>\n",
              "    <tr style=\"text-align: right;\">\n",
              "      <th></th>\n",
              "      <th>Date</th>\n",
              "      <th>GameID</th>\n",
              "      <th>Drive</th>\n",
              "      <th>qtr</th>\n",
              "      <th>down</th>\n",
              "      <th>time</th>\n",
              "      <th>TimeUnder</th>\n",
              "      <th>TimeSecs</th>\n",
              "      <th>PlayTimeDiff</th>\n",
              "      <th>SideofField</th>\n",
              "      <th>...</th>\n",
              "      <th>yacEPA</th>\n",
              "      <th>Home_WP_pre</th>\n",
              "      <th>Away_WP_pre</th>\n",
              "      <th>Home_WP_post</th>\n",
              "      <th>Away_WP_post</th>\n",
              "      <th>Win_Prob</th>\n",
              "      <th>WPA</th>\n",
              "      <th>airWPA</th>\n",
              "      <th>yacWPA</th>\n",
              "      <th>Season</th>\n",
              "    </tr>\n",
              "  </thead>\n",
              "  <tbody>\n",
              "    <tr>\n",
              "      <th>0</th>\n",
              "      <td>2009-09-10</td>\n",
              "      <td>2009091000</td>\n",
              "      <td>1</td>\n",
              "      <td>1</td>\n",
              "      <td>NaN</td>\n",
              "      <td>15:00</td>\n",
              "      <td>15</td>\n",
              "      <td>3600.0</td>\n",
              "      <td>0.0</td>\n",
              "      <td>TEN</td>\n",
              "      <td>...</td>\n",
              "      <td>NaN</td>\n",
              "      <td>0.485675</td>\n",
              "      <td>0.514325</td>\n",
              "      <td>0.546433</td>\n",
              "      <td>0.453567</td>\n",
              "      <td>0.485675</td>\n",
              "      <td>0.060758</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>2009</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>1</th>\n",
              "      <td>2009-09-10</td>\n",
              "      <td>2009091000</td>\n",
              "      <td>1</td>\n",
              "      <td>1</td>\n",
              "      <td>1.0</td>\n",
              "      <td>14:53</td>\n",
              "      <td>15</td>\n",
              "      <td>3593.0</td>\n",
              "      <td>7.0</td>\n",
              "      <td>PIT</td>\n",
              "      <td>...</td>\n",
              "      <td>1.146076</td>\n",
              "      <td>0.546433</td>\n",
              "      <td>0.453567</td>\n",
              "      <td>0.551088</td>\n",
              "      <td>0.448912</td>\n",
              "      <td>0.546433</td>\n",
              "      <td>0.004655</td>\n",
              "      <td>-0.032244</td>\n",
              "      <td>0.036899</td>\n",
              "      <td>2009</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>2</th>\n",
              "      <td>2009-09-10</td>\n",
              "      <td>2009091000</td>\n",
              "      <td>1</td>\n",
              "      <td>1</td>\n",
              "      <td>2.0</td>\n",
              "      <td>14:16</td>\n",
              "      <td>15</td>\n",
              "      <td>3556.0</td>\n",
              "      <td>37.0</td>\n",
              "      <td>PIT</td>\n",
              "      <td>...</td>\n",
              "      <td>NaN</td>\n",
              "      <td>0.551088</td>\n",
              "      <td>0.448912</td>\n",
              "      <td>0.510793</td>\n",
              "      <td>0.489207</td>\n",
              "      <td>0.551088</td>\n",
              "      <td>-0.040295</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>2009</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>3</th>\n",
              "      <td>2009-09-10</td>\n",
              "      <td>2009091000</td>\n",
              "      <td>1</td>\n",
              "      <td>1</td>\n",
              "      <td>3.0</td>\n",
              "      <td>13:35</td>\n",
              "      <td>14</td>\n",
              "      <td>3515.0</td>\n",
              "      <td>41.0</td>\n",
              "      <td>PIT</td>\n",
              "      <td>...</td>\n",
              "      <td>-5.031425</td>\n",
              "      <td>0.510793</td>\n",
              "      <td>0.489207</td>\n",
              "      <td>0.461217</td>\n",
              "      <td>0.538783</td>\n",
              "      <td>0.510793</td>\n",
              "      <td>-0.049576</td>\n",
              "      <td>0.106663</td>\n",
              "      <td>-0.156239</td>\n",
              "      <td>2009</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>4</th>\n",
              "      <td>2009-09-10</td>\n",
              "      <td>2009091000</td>\n",
              "      <td>1</td>\n",
              "      <td>1</td>\n",
              "      <td>4.0</td>\n",
              "      <td>13:27</td>\n",
              "      <td>14</td>\n",
              "      <td>3507.0</td>\n",
              "      <td>8.0</td>\n",
              "      <td>PIT</td>\n",
              "      <td>...</td>\n",
              "      <td>NaN</td>\n",
              "      <td>0.461217</td>\n",
              "      <td>0.538783</td>\n",
              "      <td>0.558929</td>\n",
              "      <td>0.441071</td>\n",
              "      <td>0.461217</td>\n",
              "      <td>0.097712</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>2009</td>\n",
              "    </tr>\n",
              "  </tbody>\n",
              "</table>\n",
              "<p>5 rows × 102 columns</p>\n",
              "</div>\n",
              "      <button class=\"colab-df-convert\" onclick=\"convertToInteractive('df-5a9d13e5-497a-40a3-bc24-4ed6c1017a0f')\"\n",
              "              title=\"Convert this dataframe to an interactive table.\"\n",
              "              style=\"display:none;\">\n",
              "        \n",
              "  <svg xmlns=\"http://www.w3.org/2000/svg\" height=\"24px\"viewBox=\"0 0 24 24\"\n",
              "       width=\"24px\">\n",
              "    <path d=\"M0 0h24v24H0V0z\" fill=\"none\"/>\n",
              "    <path d=\"M18.56 5.44l.94 2.06.94-2.06 2.06-.94-2.06-.94-.94-2.06-.94 2.06-2.06.94zm-11 1L8.5 8.5l.94-2.06 2.06-.94-2.06-.94L8.5 2.5l-.94 2.06-2.06.94zm10 10l.94 2.06.94-2.06 2.06-.94-2.06-.94-.94-2.06-.94 2.06-2.06.94z\"/><path d=\"M17.41 7.96l-1.37-1.37c-.4-.4-.92-.59-1.43-.59-.52 0-1.04.2-1.43.59L10.3 9.45l-7.72 7.72c-.78.78-.78 2.05 0 2.83L4 21.41c.39.39.9.59 1.41.59.51 0 1.02-.2 1.41-.59l7.78-7.78 2.81-2.81c.8-.78.8-2.07 0-2.86zM5.41 20L4 18.59l7.72-7.72 1.47 1.35L5.41 20z\"/>\n",
              "  </svg>\n",
              "      </button>\n",
              "      \n",
              "  <style>\n",
              "    .colab-df-container {\n",
              "      display:flex;\n",
              "      flex-wrap:wrap;\n",
              "      gap: 12px;\n",
              "    }\n",
              "\n",
              "    .colab-df-convert {\n",
              "      background-color: #E8F0FE;\n",
              "      border: none;\n",
              "      border-radius: 50%;\n",
              "      cursor: pointer;\n",
              "      display: none;\n",
              "      fill: #1967D2;\n",
              "      height: 32px;\n",
              "      padding: 0 0 0 0;\n",
              "      width: 32px;\n",
              "    }\n",
              "\n",
              "    .colab-df-convert:hover {\n",
              "      background-color: #E2EBFA;\n",
              "      box-shadow: 0px 1px 2px rgba(60, 64, 67, 0.3), 0px 1px 3px 1px rgba(60, 64, 67, 0.15);\n",
              "      fill: #174EA6;\n",
              "    }\n",
              "\n",
              "    [theme=dark] .colab-df-convert {\n",
              "      background-color: #3B4455;\n",
              "      fill: #D2E3FC;\n",
              "    }\n",
              "\n",
              "    [theme=dark] .colab-df-convert:hover {\n",
              "      background-color: #434B5C;\n",
              "      box-shadow: 0px 1px 3px 1px rgba(0, 0, 0, 0.15);\n",
              "      filter: drop-shadow(0px 1px 2px rgba(0, 0, 0, 0.3));\n",
              "      fill: #FFFFFF;\n",
              "    }\n",
              "  </style>\n",
              "\n",
              "      <script>\n",
              "        const buttonEl =\n",
              "          document.querySelector('#df-5a9d13e5-497a-40a3-bc24-4ed6c1017a0f button.colab-df-convert');\n",
              "        buttonEl.style.display =\n",
              "          google.colab.kernel.accessAllowed ? 'block' : 'none';\n",
              "\n",
              "        async function convertToInteractive(key) {\n",
              "          const element = document.querySelector('#df-5a9d13e5-497a-40a3-bc24-4ed6c1017a0f');\n",
              "          const dataTable =\n",
              "            await google.colab.kernel.invokeFunction('convertToInteractive',\n",
              "                                                     [key], {});\n",
              "          if (!dataTable) return;\n",
              "\n",
              "          const docLinkHtml = 'Like what you see? Visit the ' +\n",
              "            '<a target=\"_blank\" href=https://colab.research.google.com/notebooks/data_table.ipynb>data table notebook</a>'\n",
              "            + ' to learn more about interactive tables.';\n",
              "          element.innerHTML = '';\n",
              "          dataTable['output_type'] = 'display_data';\n",
              "          await google.colab.output.renderOutput(dataTable, element);\n",
              "          const docLink = document.createElement('div');\n",
              "          docLink.innerHTML = docLinkHtml;\n",
              "          element.appendChild(docLink);\n",
              "        }\n",
              "      </script>\n",
              "    </div>\n",
              "  </div>\n",
              "  "
            ]
          },
          "metadata": {},
          "execution_count": 13
        }
      ]
    },
    {
      "cell_type": "code",
      "source": [
        "nfl_data.shape"
      ],
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/"
        },
        "id": "NQa9Dh5eGJS6",
        "outputId": "869166ca-a454-4554-beae-211a8d8c3f79"
      },
      "execution_count": 14,
      "outputs": [
        {
          "output_type": "execute_result",
          "data": {
            "text/plain": [
              "(407688, 102)"
            ]
          },
          "metadata": {},
          "execution_count": 14
        }
      ]
    },
    {
      "cell_type": "markdown",
      "source": [
        "### How many missing data points do we have?"
      ],
      "metadata": {
        "id": "xOQuDCL2IKqL"
      }
    },
    {
      "cell_type": "markdown",
      "source": [
        "Ok, now we know that we do have some missing values. Let's see how many we have in each column. "
      ],
      "metadata": {
        "id": "5cfCvRIHEQWS"
      }
    },
    {
      "cell_type": "code",
      "source": [
        "# get the number of missing data points per column\n",
        "missing_values_count = nfl_data.isnull().sum()\n",
        "\n",
        "# look at the # of missing points in the first ten columns\n",
        "missing_values_count[0:10]"
      ],
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/"
        },
        "id": "_eoOztEcEPvz",
        "outputId": "6d6a549e-57f0-4f49-a116-35e76e8e94dd"
      },
      "execution_count": 15,
      "outputs": [
        {
          "output_type": "execute_result",
          "data": {
            "text/plain": [
              "Date                0\n",
              "GameID              0\n",
              "Drive               0\n",
              "qtr                 0\n",
              "down            61154\n",
              "time              224\n",
              "TimeUnder           0\n",
              "TimeSecs          224\n",
              "PlayTimeDiff      444\n",
              "SideofField       528\n",
              "dtype: int64"
            ]
          },
          "metadata": {},
          "execution_count": 15
        }
      ]
    },
    {
      "cell_type": "code",
      "source": [
        "# how many total missing values do we have?\n",
        "total_cells = np.product(nfl_data.shape)\n",
        "total_missing = missing_values_count.sum()\n",
        "\n",
        "# percent of data that is missing\n",
        "percent_missing = (total_missing/total_cells) * 100\n",
        "print(percent_missing)"
      ],
      "metadata": {
        "id": "vcmdamwKG3Et",
        "colab": {
          "base_uri": "https://localhost:8080/"
        },
        "outputId": "ad866b6c-d605-4b28-b540-34da1851f377"
      },
      "execution_count": 16,
      "outputs": [
        {
          "output_type": "stream",
          "name": "stdout",
          "text": [
            "24.87214126835169\n"
          ]
        }
      ]
    },
    {
      "cell_type": "markdown",
      "source": [
        "Almost a quarter of the cells in this dataset are empty! In the next step, we're going to take a closer look at some of the columns with missing values and try to figure out what might be going on with them."
      ],
      "metadata": {
        "id": "Cuhj2tk7EhBD"
      }
    },
    {
      "cell_type": "markdown",
      "source": [
        "Looking at the number of missing values in the `nfl_data` dataframe, we notice that the column \"TimesSec\" has a lot of missing values in it. By looking at [the documentation](https://www.kaggle.com/maxhorowitz/nflplaybyplay2009to2016), we can see that this column has information on the number of seconds left in the game when the play was made. This means that these values are probably missing because **they were not recorded**, rather than because they don't exist. So, it would make sense for us to try and guess what they should be rather than just leaving them as NA's.\n",
        "\n",
        "On the other hand, there are other fields, like \"PenalizedTeam\" that also have lot of missing fields. In this case, though, the field is missing because if there was no penalty then it doesn't make sense to say *which* team was penalized. For this column, it would make more sense to either leave it empty or to add a third value like \"neither\" and use that to replace the NA's.\n",
        "\n",
        "We'll cover some \"quick and dirty\" techniques that can help you with missing values but will probably also end up removing some useful information or adding some noise to your data."
      ],
      "metadata": {
        "id": "1UK6R1kBIaPC"
      }
    },
    {
      "cell_type": "markdown",
      "source": [
        "### Drop missing values"
      ],
      "metadata": {
        "id": "ssJU-WK9MSSE"
      }
    },
    {
      "cell_type": "markdown",
      "source": [
        "If you're sure you want to drop rows with missing values, pandas does have a handy function, `dropna()` to help you do this. Let's try it out on our NFL dataset!"
      ],
      "metadata": {
        "id": "YRCSulcqCL_o"
      }
    },
    {
      "cell_type": "code",
      "source": [
        "# remove all the rows that contain a missing value\n",
        "# This is because every row in our dataset had at least one missing value. \n",
        "# We might have better luck removing all the *columns* that have at least one missing value instead.\n",
        "nfl_data.dropna()"
      ],
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/",
          "height": 123
        },
        "id": "8Zb1pyvFOvan",
        "outputId": "100426de-d265-4e23-d7d9-b6a52c56f7ed"
      },
      "execution_count": 17,
      "outputs": [
        {
          "output_type": "execute_result",
          "data": {
            "text/plain": [
              "Empty DataFrame\n",
              "Columns: [Date, GameID, Drive, qtr, down, time, TimeUnder, TimeSecs, PlayTimeDiff, SideofField, yrdln, yrdline100, ydstogo, ydsnet, GoalToGo, FirstDown, posteam, DefensiveTeam, desc, PlayAttempted, Yards.Gained, sp, Touchdown, ExPointResult, TwoPointConv, DefTwoPoint, Safety, Onsidekick, PuntResult, PlayType, Passer, Passer_ID, PassAttempt, PassOutcome, PassLength, AirYards, YardsAfterCatch, QBHit, PassLocation, InterceptionThrown, Interceptor, Rusher, Rusher_ID, RushAttempt, RunLocation, RunGap, Receiver, Receiver_ID, Reception, ReturnResult, Returner, BlockingPlayer, Tackler1, Tackler2, FieldGoalResult, FieldGoalDistance, Fumble, RecFumbTeam, RecFumbPlayer, Sack, Challenge.Replay, ChalReplayResult, Accepted.Penalty, PenalizedTeam, PenaltyType, PenalizedPlayer, Penalty.Yards, PosTeamScore, DefTeamScore, ScoreDiff, AbsScoreDiff, HomeTeam, AwayTeam, Timeout_Indicator, Timeout_Team, posteam_timeouts_pre, HomeTimeouts_Remaining_Pre, AwayTimeouts_Remaining_Pre, HomeTimeouts_Remaining_Post, AwayTimeouts_Remaining_Post, No_Score_Prob, Opp_Field_Goal_Prob, Opp_Safety_Prob, Opp_Touchdown_Prob, Field_Goal_Prob, Safety_Prob, Touchdown_Prob, ExPoint_Prob, TwoPoint_Prob, ExpPts, EPA, airEPA, yacEPA, Home_WP_pre, Away_WP_pre, Home_WP_post, Away_WP_post, Win_Prob, WPA, airWPA, ...]\n",
              "Index: []\n",
              "\n",
              "[0 rows x 102 columns]"
            ],
            "text/html": [
              "\n",
              "  <div id=\"df-49030761-9a92-4424-be49-30bac733b576\">\n",
              "    <div class=\"colab-df-container\">\n",
              "      <div>\n",
              "<style scoped>\n",
              "    .dataframe tbody tr th:only-of-type {\n",
              "        vertical-align: middle;\n",
              "    }\n",
              "\n",
              "    .dataframe tbody tr th {\n",
              "        vertical-align: top;\n",
              "    }\n",
              "\n",
              "    .dataframe thead th {\n",
              "        text-align: right;\n",
              "    }\n",
              "</style>\n",
              "<table border=\"1\" class=\"dataframe\">\n",
              "  <thead>\n",
              "    <tr style=\"text-align: right;\">\n",
              "      <th></th>\n",
              "      <th>Date</th>\n",
              "      <th>GameID</th>\n",
              "      <th>Drive</th>\n",
              "      <th>qtr</th>\n",
              "      <th>down</th>\n",
              "      <th>time</th>\n",
              "      <th>TimeUnder</th>\n",
              "      <th>TimeSecs</th>\n",
              "      <th>PlayTimeDiff</th>\n",
              "      <th>SideofField</th>\n",
              "      <th>...</th>\n",
              "      <th>yacEPA</th>\n",
              "      <th>Home_WP_pre</th>\n",
              "      <th>Away_WP_pre</th>\n",
              "      <th>Home_WP_post</th>\n",
              "      <th>Away_WP_post</th>\n",
              "      <th>Win_Prob</th>\n",
              "      <th>WPA</th>\n",
              "      <th>airWPA</th>\n",
              "      <th>yacWPA</th>\n",
              "      <th>Season</th>\n",
              "    </tr>\n",
              "  </thead>\n",
              "  <tbody>\n",
              "  </tbody>\n",
              "</table>\n",
              "<p>0 rows × 102 columns</p>\n",
              "</div>\n",
              "      <button class=\"colab-df-convert\" onclick=\"convertToInteractive('df-49030761-9a92-4424-be49-30bac733b576')\"\n",
              "              title=\"Convert this dataframe to an interactive table.\"\n",
              "              style=\"display:none;\">\n",
              "        \n",
              "  <svg xmlns=\"http://www.w3.org/2000/svg\" height=\"24px\"viewBox=\"0 0 24 24\"\n",
              "       width=\"24px\">\n",
              "    <path d=\"M0 0h24v24H0V0z\" fill=\"none\"/>\n",
              "    <path d=\"M18.56 5.44l.94 2.06.94-2.06 2.06-.94-2.06-.94-.94-2.06-.94 2.06-2.06.94zm-11 1L8.5 8.5l.94-2.06 2.06-.94-2.06-.94L8.5 2.5l-.94 2.06-2.06.94zm10 10l.94 2.06.94-2.06 2.06-.94-2.06-.94-.94-2.06-.94 2.06-2.06.94z\"/><path d=\"M17.41 7.96l-1.37-1.37c-.4-.4-.92-.59-1.43-.59-.52 0-1.04.2-1.43.59L10.3 9.45l-7.72 7.72c-.78.78-.78 2.05 0 2.83L4 21.41c.39.39.9.59 1.41.59.51 0 1.02-.2 1.41-.59l7.78-7.78 2.81-2.81c.8-.78.8-2.07 0-2.86zM5.41 20L4 18.59l7.72-7.72 1.47 1.35L5.41 20z\"/>\n",
              "  </svg>\n",
              "      </button>\n",
              "      \n",
              "  <style>\n",
              "    .colab-df-container {\n",
              "      display:flex;\n",
              "      flex-wrap:wrap;\n",
              "      gap: 12px;\n",
              "    }\n",
              "\n",
              "    .colab-df-convert {\n",
              "      background-color: #E8F0FE;\n",
              "      border: none;\n",
              "      border-radius: 50%;\n",
              "      cursor: pointer;\n",
              "      display: none;\n",
              "      fill: #1967D2;\n",
              "      height: 32px;\n",
              "      padding: 0 0 0 0;\n",
              "      width: 32px;\n",
              "    }\n",
              "\n",
              "    .colab-df-convert:hover {\n",
              "      background-color: #E2EBFA;\n",
              "      box-shadow: 0px 1px 2px rgba(60, 64, 67, 0.3), 0px 1px 3px 1px rgba(60, 64, 67, 0.15);\n",
              "      fill: #174EA6;\n",
              "    }\n",
              "\n",
              "    [theme=dark] .colab-df-convert {\n",
              "      background-color: #3B4455;\n",
              "      fill: #D2E3FC;\n",
              "    }\n",
              "\n",
              "    [theme=dark] .colab-df-convert:hover {\n",
              "      background-color: #434B5C;\n",
              "      box-shadow: 0px 1px 3px 1px rgba(0, 0, 0, 0.15);\n",
              "      filter: drop-shadow(0px 1px 2px rgba(0, 0, 0, 0.3));\n",
              "      fill: #FFFFFF;\n",
              "    }\n",
              "  </style>\n",
              "\n",
              "      <script>\n",
              "        const buttonEl =\n",
              "          document.querySelector('#df-49030761-9a92-4424-be49-30bac733b576 button.colab-df-convert');\n",
              "        buttonEl.style.display =\n",
              "          google.colab.kernel.accessAllowed ? 'block' : 'none';\n",
              "\n",
              "        async function convertToInteractive(key) {\n",
              "          const element = document.querySelector('#df-49030761-9a92-4424-be49-30bac733b576');\n",
              "          const dataTable =\n",
              "            await google.colab.kernel.invokeFunction('convertToInteractive',\n",
              "                                                     [key], {});\n",
              "          if (!dataTable) return;\n",
              "\n",
              "          const docLinkHtml = 'Like what you see? Visit the ' +\n",
              "            '<a target=\"_blank\" href=https://colab.research.google.com/notebooks/data_table.ipynb>data table notebook</a>'\n",
              "            + ' to learn more about interactive tables.';\n",
              "          element.innerHTML = '';\n",
              "          dataTable['output_type'] = 'display_data';\n",
              "          await google.colab.output.renderOutput(dataTable, element);\n",
              "          const docLink = document.createElement('div');\n",
              "          docLink.innerHTML = docLinkHtml;\n",
              "          element.appendChild(docLink);\n",
              "        }\n",
              "      </script>\n",
              "    </div>\n",
              "  </div>\n",
              "  "
            ]
          },
          "metadata": {},
          "execution_count": 17
        }
      ]
    },
    {
      "cell_type": "code",
      "source": [
        "# remove all columns with at least one missing value\n",
        "columns_with_na_dropped = nfl_data.dropna(axis=1)\n",
        "columns_with_na_dropped.head()"
      ],
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/",
          "height": 386
        },
        "id": "wIzIUapYOxRa",
        "outputId": "71150aa5-188a-43d9-d279-cfb5b439c94c"
      },
      "execution_count": 18,
      "outputs": [
        {
          "output_type": "execute_result",
          "data": {
            "text/plain": [
              "         Date      GameID  Drive  qtr  TimeUnder  ydstogo  ydsnet  \\\n",
              "0  2009-09-10  2009091000      1    1         15        0       0   \n",
              "1  2009-09-10  2009091000      1    1         15       10       5   \n",
              "2  2009-09-10  2009091000      1    1         15        5       2   \n",
              "3  2009-09-10  2009091000      1    1         14        8       2   \n",
              "4  2009-09-10  2009091000      1    1         14        8       2   \n",
              "\n",
              "   PlayAttempted  Yards.Gained  sp  ...  Timeout_Indicator  Timeout_Team  \\\n",
              "0              1            39   0  ...                  0          None   \n",
              "1              1             5   0  ...                  0          None   \n",
              "2              1            -3   0  ...                  0          None   \n",
              "3              1             0   0  ...                  0          None   \n",
              "4              1             0   0  ...                  0          None   \n",
              "\n",
              "   posteam_timeouts_pre HomeTimeouts_Remaining_Pre AwayTimeouts_Remaining_Pre  \\\n",
              "0                     3                          3                          3   \n",
              "1                     3                          3                          3   \n",
              "2                     3                          3                          3   \n",
              "3                     3                          3                          3   \n",
              "4                     3                          3                          3   \n",
              "\n",
              "   HomeTimeouts_Remaining_Post  AwayTimeouts_Remaining_Post  ExPoint_Prob  \\\n",
              "0                            3                            3           0.0   \n",
              "1                            3                            3           0.0   \n",
              "2                            3                            3           0.0   \n",
              "3                            3                            3           0.0   \n",
              "4                            3                            3           0.0   \n",
              "\n",
              "   TwoPoint_Prob  Season  \n",
              "0            0.0    2009  \n",
              "1            0.0    2009  \n",
              "2            0.0    2009  \n",
              "3            0.0    2009  \n",
              "4            0.0    2009  \n",
              "\n",
              "[5 rows x 41 columns]"
            ],
            "text/html": [
              "\n",
              "  <div id=\"df-ad163b78-2e9e-4424-ac74-6108ad5d0b99\">\n",
              "    <div class=\"colab-df-container\">\n",
              "      <div>\n",
              "<style scoped>\n",
              "    .dataframe tbody tr th:only-of-type {\n",
              "        vertical-align: middle;\n",
              "    }\n",
              "\n",
              "    .dataframe tbody tr th {\n",
              "        vertical-align: top;\n",
              "    }\n",
              "\n",
              "    .dataframe thead th {\n",
              "        text-align: right;\n",
              "    }\n",
              "</style>\n",
              "<table border=\"1\" class=\"dataframe\">\n",
              "  <thead>\n",
              "    <tr style=\"text-align: right;\">\n",
              "      <th></th>\n",
              "      <th>Date</th>\n",
              "      <th>GameID</th>\n",
              "      <th>Drive</th>\n",
              "      <th>qtr</th>\n",
              "      <th>TimeUnder</th>\n",
              "      <th>ydstogo</th>\n",
              "      <th>ydsnet</th>\n",
              "      <th>PlayAttempted</th>\n",
              "      <th>Yards.Gained</th>\n",
              "      <th>sp</th>\n",
              "      <th>...</th>\n",
              "      <th>Timeout_Indicator</th>\n",
              "      <th>Timeout_Team</th>\n",
              "      <th>posteam_timeouts_pre</th>\n",
              "      <th>HomeTimeouts_Remaining_Pre</th>\n",
              "      <th>AwayTimeouts_Remaining_Pre</th>\n",
              "      <th>HomeTimeouts_Remaining_Post</th>\n",
              "      <th>AwayTimeouts_Remaining_Post</th>\n",
              "      <th>ExPoint_Prob</th>\n",
              "      <th>TwoPoint_Prob</th>\n",
              "      <th>Season</th>\n",
              "    </tr>\n",
              "  </thead>\n",
              "  <tbody>\n",
              "    <tr>\n",
              "      <th>0</th>\n",
              "      <td>2009-09-10</td>\n",
              "      <td>2009091000</td>\n",
              "      <td>1</td>\n",
              "      <td>1</td>\n",
              "      <td>15</td>\n",
              "      <td>0</td>\n",
              "      <td>0</td>\n",
              "      <td>1</td>\n",
              "      <td>39</td>\n",
              "      <td>0</td>\n",
              "      <td>...</td>\n",
              "      <td>0</td>\n",
              "      <td>None</td>\n",
              "      <td>3</td>\n",
              "      <td>3</td>\n",
              "      <td>3</td>\n",
              "      <td>3</td>\n",
              "      <td>3</td>\n",
              "      <td>0.0</td>\n",
              "      <td>0.0</td>\n",
              "      <td>2009</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>1</th>\n",
              "      <td>2009-09-10</td>\n",
              "      <td>2009091000</td>\n",
              "      <td>1</td>\n",
              "      <td>1</td>\n",
              "      <td>15</td>\n",
              "      <td>10</td>\n",
              "      <td>5</td>\n",
              "      <td>1</td>\n",
              "      <td>5</td>\n",
              "      <td>0</td>\n",
              "      <td>...</td>\n",
              "      <td>0</td>\n",
              "      <td>None</td>\n",
              "      <td>3</td>\n",
              "      <td>3</td>\n",
              "      <td>3</td>\n",
              "      <td>3</td>\n",
              "      <td>3</td>\n",
              "      <td>0.0</td>\n",
              "      <td>0.0</td>\n",
              "      <td>2009</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>2</th>\n",
              "      <td>2009-09-10</td>\n",
              "      <td>2009091000</td>\n",
              "      <td>1</td>\n",
              "      <td>1</td>\n",
              "      <td>15</td>\n",
              "      <td>5</td>\n",
              "      <td>2</td>\n",
              "      <td>1</td>\n",
              "      <td>-3</td>\n",
              "      <td>0</td>\n",
              "      <td>...</td>\n",
              "      <td>0</td>\n",
              "      <td>None</td>\n",
              "      <td>3</td>\n",
              "      <td>3</td>\n",
              "      <td>3</td>\n",
              "      <td>3</td>\n",
              "      <td>3</td>\n",
              "      <td>0.0</td>\n",
              "      <td>0.0</td>\n",
              "      <td>2009</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>3</th>\n",
              "      <td>2009-09-10</td>\n",
              "      <td>2009091000</td>\n",
              "      <td>1</td>\n",
              "      <td>1</td>\n",
              "      <td>14</td>\n",
              "      <td>8</td>\n",
              "      <td>2</td>\n",
              "      <td>1</td>\n",
              "      <td>0</td>\n",
              "      <td>0</td>\n",
              "      <td>...</td>\n",
              "      <td>0</td>\n",
              "      <td>None</td>\n",
              "      <td>3</td>\n",
              "      <td>3</td>\n",
              "      <td>3</td>\n",
              "      <td>3</td>\n",
              "      <td>3</td>\n",
              "      <td>0.0</td>\n",
              "      <td>0.0</td>\n",
              "      <td>2009</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>4</th>\n",
              "      <td>2009-09-10</td>\n",
              "      <td>2009091000</td>\n",
              "      <td>1</td>\n",
              "      <td>1</td>\n",
              "      <td>14</td>\n",
              "      <td>8</td>\n",
              "      <td>2</td>\n",
              "      <td>1</td>\n",
              "      <td>0</td>\n",
              "      <td>0</td>\n",
              "      <td>...</td>\n",
              "      <td>0</td>\n",
              "      <td>None</td>\n",
              "      <td>3</td>\n",
              "      <td>3</td>\n",
              "      <td>3</td>\n",
              "      <td>3</td>\n",
              "      <td>3</td>\n",
              "      <td>0.0</td>\n",
              "      <td>0.0</td>\n",
              "      <td>2009</td>\n",
              "    </tr>\n",
              "  </tbody>\n",
              "</table>\n",
              "<p>5 rows × 41 columns</p>\n",
              "</div>\n",
              "      <button class=\"colab-df-convert\" onclick=\"convertToInteractive('df-ad163b78-2e9e-4424-ac74-6108ad5d0b99')\"\n",
              "              title=\"Convert this dataframe to an interactive table.\"\n",
              "              style=\"display:none;\">\n",
              "        \n",
              "  <svg xmlns=\"http://www.w3.org/2000/svg\" height=\"24px\"viewBox=\"0 0 24 24\"\n",
              "       width=\"24px\">\n",
              "    <path d=\"M0 0h24v24H0V0z\" fill=\"none\"/>\n",
              "    <path d=\"M18.56 5.44l.94 2.06.94-2.06 2.06-.94-2.06-.94-.94-2.06-.94 2.06-2.06.94zm-11 1L8.5 8.5l.94-2.06 2.06-.94-2.06-.94L8.5 2.5l-.94 2.06-2.06.94zm10 10l.94 2.06.94-2.06 2.06-.94-2.06-.94-.94-2.06-.94 2.06-2.06.94z\"/><path d=\"M17.41 7.96l-1.37-1.37c-.4-.4-.92-.59-1.43-.59-.52 0-1.04.2-1.43.59L10.3 9.45l-7.72 7.72c-.78.78-.78 2.05 0 2.83L4 21.41c.39.39.9.59 1.41.59.51 0 1.02-.2 1.41-.59l7.78-7.78 2.81-2.81c.8-.78.8-2.07 0-2.86zM5.41 20L4 18.59l7.72-7.72 1.47 1.35L5.41 20z\"/>\n",
              "  </svg>\n",
              "      </button>\n",
              "      \n",
              "  <style>\n",
              "    .colab-df-container {\n",
              "      display:flex;\n",
              "      flex-wrap:wrap;\n",
              "      gap: 12px;\n",
              "    }\n",
              "\n",
              "    .colab-df-convert {\n",
              "      background-color: #E8F0FE;\n",
              "      border: none;\n",
              "      border-radius: 50%;\n",
              "      cursor: pointer;\n",
              "      display: none;\n",
              "      fill: #1967D2;\n",
              "      height: 32px;\n",
              "      padding: 0 0 0 0;\n",
              "      width: 32px;\n",
              "    }\n",
              "\n",
              "    .colab-df-convert:hover {\n",
              "      background-color: #E2EBFA;\n",
              "      box-shadow: 0px 1px 2px rgba(60, 64, 67, 0.3), 0px 1px 3px 1px rgba(60, 64, 67, 0.15);\n",
              "      fill: #174EA6;\n",
              "    }\n",
              "\n",
              "    [theme=dark] .colab-df-convert {\n",
              "      background-color: #3B4455;\n",
              "      fill: #D2E3FC;\n",
              "    }\n",
              "\n",
              "    [theme=dark] .colab-df-convert:hover {\n",
              "      background-color: #434B5C;\n",
              "      box-shadow: 0px 1px 3px 1px rgba(0, 0, 0, 0.15);\n",
              "      filter: drop-shadow(0px 1px 2px rgba(0, 0, 0, 0.3));\n",
              "      fill: #FFFFFF;\n",
              "    }\n",
              "  </style>\n",
              "\n",
              "      <script>\n",
              "        const buttonEl =\n",
              "          document.querySelector('#df-ad163b78-2e9e-4424-ac74-6108ad5d0b99 button.colab-df-convert');\n",
              "        buttonEl.style.display =\n",
              "          google.colab.kernel.accessAllowed ? 'block' : 'none';\n",
              "\n",
              "        async function convertToInteractive(key) {\n",
              "          const element = document.querySelector('#df-ad163b78-2e9e-4424-ac74-6108ad5d0b99');\n",
              "          const dataTable =\n",
              "            await google.colab.kernel.invokeFunction('convertToInteractive',\n",
              "                                                     [key], {});\n",
              "          if (!dataTable) return;\n",
              "\n",
              "          const docLinkHtml = 'Like what you see? Visit the ' +\n",
              "            '<a target=\"_blank\" href=https://colab.research.google.com/notebooks/data_table.ipynb>data table notebook</a>'\n",
              "            + ' to learn more about interactive tables.';\n",
              "          element.innerHTML = '';\n",
              "          dataTable['output_type'] = 'display_data';\n",
              "          await google.colab.output.renderOutput(dataTable, element);\n",
              "          const docLink = document.createElement('div');\n",
              "          docLink.innerHTML = docLinkHtml;\n",
              "          element.appendChild(docLink);\n",
              "        }\n",
              "      </script>\n",
              "    </div>\n",
              "  </div>\n",
              "  "
            ]
          },
          "metadata": {},
          "execution_count": 18
        }
      ]
    },
    {
      "cell_type": "code",
      "source": [
        "# just how much data did we lose?\n",
        "print(\"Columns in original dataset: %d \\n\" % nfl_data.shape[1])\n",
        "print(\"Columns with na's dropped: %d\" % columns_with_na_dropped.shape[1])"
      ],
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/"
        },
        "id": "GSafb8UwPF7D",
        "outputId": "c85791c3-6701-47b0-cc86-6d0819d7af6e"
      },
      "execution_count": 19,
      "outputs": [
        {
          "output_type": "stream",
          "name": "stdout",
          "text": [
            "Columns in original dataset: 102 \n",
            "\n",
            "Columns with na's dropped: 41\n"
          ]
        }
      ]
    },
    {
      "cell_type": "markdown",
      "source": [
        "Notice that this can drop a lot of data that you might want to keep, particularly in smaller datasets. What if you just want to drop rows or columns that contain several or even just all null values? You specify those setting in dropna with the `how` and `thresh` parameters.\n",
        "\n",
        "By default, `how='any'`. You could alternatively specify `how='all'` so as to **drop only rows or columns that contain all null values**. The `thresh `parameter gives you finer-grained control: you set the number of non-null values that a row or column needs to have in order to be kept."
      ],
      "metadata": {
        "id": "PVH46JhrRmFM"
      }
    },
    {
      "cell_type": "code",
      "source": [
        "df1 = pd.DataFrame([[ 1, np.nan, 7], \n",
        "              [ 2,  5,  8], \n",
        "              [ np.nan, 6, 9]])\n",
        "df1[3] = np.nan\n",
        "df1"
      ],
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/",
          "height": 143
        },
        "id": "DNdAO30GRiUl",
        "outputId": "a763e5df-5244-4225-8f81-dd51753964f1"
      },
      "execution_count": 36,
      "outputs": [
        {
          "output_type": "execute_result",
          "data": {
            "text/plain": [
              "     0    1  2   3\n",
              "0  1.0  NaN  7 NaN\n",
              "1  2.0  5.0  8 NaN\n",
              "2  NaN  6.0  9 NaN"
            ],
            "text/html": [
              "\n",
              "  <div id=\"df-aac106f0-9898-4d96-85d8-30105715f454\">\n",
              "    <div class=\"colab-df-container\">\n",
              "      <div>\n",
              "<style scoped>\n",
              "    .dataframe tbody tr th:only-of-type {\n",
              "        vertical-align: middle;\n",
              "    }\n",
              "\n",
              "    .dataframe tbody tr th {\n",
              "        vertical-align: top;\n",
              "    }\n",
              "\n",
              "    .dataframe thead th {\n",
              "        text-align: right;\n",
              "    }\n",
              "</style>\n",
              "<table border=\"1\" class=\"dataframe\">\n",
              "  <thead>\n",
              "    <tr style=\"text-align: right;\">\n",
              "      <th></th>\n",
              "      <th>0</th>\n",
              "      <th>1</th>\n",
              "      <th>2</th>\n",
              "      <th>3</th>\n",
              "    </tr>\n",
              "  </thead>\n",
              "  <tbody>\n",
              "    <tr>\n",
              "      <th>0</th>\n",
              "      <td>1.0</td>\n",
              "      <td>NaN</td>\n",
              "      <td>7</td>\n",
              "      <td>NaN</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>1</th>\n",
              "      <td>2.0</td>\n",
              "      <td>5.0</td>\n",
              "      <td>8</td>\n",
              "      <td>NaN</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>2</th>\n",
              "      <td>NaN</td>\n",
              "      <td>6.0</td>\n",
              "      <td>9</td>\n",
              "      <td>NaN</td>\n",
              "    </tr>\n",
              "  </tbody>\n",
              "</table>\n",
              "</div>\n",
              "      <button class=\"colab-df-convert\" onclick=\"convertToInteractive('df-aac106f0-9898-4d96-85d8-30105715f454')\"\n",
              "              title=\"Convert this dataframe to an interactive table.\"\n",
              "              style=\"display:none;\">\n",
              "        \n",
              "  <svg xmlns=\"http://www.w3.org/2000/svg\" height=\"24px\"viewBox=\"0 0 24 24\"\n",
              "       width=\"24px\">\n",
              "    <path d=\"M0 0h24v24H0V0z\" fill=\"none\"/>\n",
              "    <path d=\"M18.56 5.44l.94 2.06.94-2.06 2.06-.94-2.06-.94-.94-2.06-.94 2.06-2.06.94zm-11 1L8.5 8.5l.94-2.06 2.06-.94-2.06-.94L8.5 2.5l-.94 2.06-2.06.94zm10 10l.94 2.06.94-2.06 2.06-.94-2.06-.94-.94-2.06-.94 2.06-2.06.94z\"/><path d=\"M17.41 7.96l-1.37-1.37c-.4-.4-.92-.59-1.43-.59-.52 0-1.04.2-1.43.59L10.3 9.45l-7.72 7.72c-.78.78-.78 2.05 0 2.83L4 21.41c.39.39.9.59 1.41.59.51 0 1.02-.2 1.41-.59l7.78-7.78 2.81-2.81c.8-.78.8-2.07 0-2.86zM5.41 20L4 18.59l7.72-7.72 1.47 1.35L5.41 20z\"/>\n",
              "  </svg>\n",
              "      </button>\n",
              "      \n",
              "  <style>\n",
              "    .colab-df-container {\n",
              "      display:flex;\n",
              "      flex-wrap:wrap;\n",
              "      gap: 12px;\n",
              "    }\n",
              "\n",
              "    .colab-df-convert {\n",
              "      background-color: #E8F0FE;\n",
              "      border: none;\n",
              "      border-radius: 50%;\n",
              "      cursor: pointer;\n",
              "      display: none;\n",
              "      fill: #1967D2;\n",
              "      height: 32px;\n",
              "      padding: 0 0 0 0;\n",
              "      width: 32px;\n",
              "    }\n",
              "\n",
              "    .colab-df-convert:hover {\n",
              "      background-color: #E2EBFA;\n",
              "      box-shadow: 0px 1px 2px rgba(60, 64, 67, 0.3), 0px 1px 3px 1px rgba(60, 64, 67, 0.15);\n",
              "      fill: #174EA6;\n",
              "    }\n",
              "\n",
              "    [theme=dark] .colab-df-convert {\n",
              "      background-color: #3B4455;\n",
              "      fill: #D2E3FC;\n",
              "    }\n",
              "\n",
              "    [theme=dark] .colab-df-convert:hover {\n",
              "      background-color: #434B5C;\n",
              "      box-shadow: 0px 1px 3px 1px rgba(0, 0, 0, 0.15);\n",
              "      filter: drop-shadow(0px 1px 2px rgba(0, 0, 0, 0.3));\n",
              "      fill: #FFFFFF;\n",
              "    }\n",
              "  </style>\n",
              "\n",
              "      <script>\n",
              "        const buttonEl =\n",
              "          document.querySelector('#df-aac106f0-9898-4d96-85d8-30105715f454 button.colab-df-convert');\n",
              "        buttonEl.style.display =\n",
              "          google.colab.kernel.accessAllowed ? 'block' : 'none';\n",
              "\n",
              "        async function convertToInteractive(key) {\n",
              "          const element = document.querySelector('#df-aac106f0-9898-4d96-85d8-30105715f454');\n",
              "          const dataTable =\n",
              "            await google.colab.kernel.invokeFunction('convertToInteractive',\n",
              "                                                     [key], {});\n",
              "          if (!dataTable) return;\n",
              "\n",
              "          const docLinkHtml = 'Like what you see? Visit the ' +\n",
              "            '<a target=\"_blank\" href=https://colab.research.google.com/notebooks/data_table.ipynb>data table notebook</a>'\n",
              "            + ' to learn more about interactive tables.';\n",
              "          element.innerHTML = '';\n",
              "          dataTable['output_type'] = 'display_data';\n",
              "          await google.colab.output.renderOutput(dataTable, element);\n",
              "          const docLink = document.createElement('div');\n",
              "          docLink.innerHTML = docLinkHtml;\n",
              "          element.appendChild(docLink);\n",
              "        }\n",
              "      </script>\n",
              "    </div>\n",
              "  </div>\n",
              "  "
            ]
          },
          "metadata": {},
          "execution_count": 36
        }
      ]
    },
    {
      "cell_type": "code",
      "source": [
        "df1.dropna(thresh=3)"
      ],
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/",
          "height": 81
        },
        "id": "IbJzFVyKSe1F",
        "outputId": "a8254dd4-5f4f-4e5b-b528-37ed7cd00834"
      },
      "execution_count": 37,
      "outputs": [
        {
          "output_type": "execute_result",
          "data": {
            "text/plain": [
              "     0    1  2   3\n",
              "1  2.0  5.0  8 NaN"
            ],
            "text/html": [
              "\n",
              "  <div id=\"df-2ae96d2c-9ea0-44f1-98f2-8a766f9fda6e\">\n",
              "    <div class=\"colab-df-container\">\n",
              "      <div>\n",
              "<style scoped>\n",
              "    .dataframe tbody tr th:only-of-type {\n",
              "        vertical-align: middle;\n",
              "    }\n",
              "\n",
              "    .dataframe tbody tr th {\n",
              "        vertical-align: top;\n",
              "    }\n",
              "\n",
              "    .dataframe thead th {\n",
              "        text-align: right;\n",
              "    }\n",
              "</style>\n",
              "<table border=\"1\" class=\"dataframe\">\n",
              "  <thead>\n",
              "    <tr style=\"text-align: right;\">\n",
              "      <th></th>\n",
              "      <th>0</th>\n",
              "      <th>1</th>\n",
              "      <th>2</th>\n",
              "      <th>3</th>\n",
              "    </tr>\n",
              "  </thead>\n",
              "  <tbody>\n",
              "    <tr>\n",
              "      <th>1</th>\n",
              "      <td>2.0</td>\n",
              "      <td>5.0</td>\n",
              "      <td>8</td>\n",
              "      <td>NaN</td>\n",
              "    </tr>\n",
              "  </tbody>\n",
              "</table>\n",
              "</div>\n",
              "      <button class=\"colab-df-convert\" onclick=\"convertToInteractive('df-2ae96d2c-9ea0-44f1-98f2-8a766f9fda6e')\"\n",
              "              title=\"Convert this dataframe to an interactive table.\"\n",
              "              style=\"display:none;\">\n",
              "        \n",
              "  <svg xmlns=\"http://www.w3.org/2000/svg\" height=\"24px\"viewBox=\"0 0 24 24\"\n",
              "       width=\"24px\">\n",
              "    <path d=\"M0 0h24v24H0V0z\" fill=\"none\"/>\n",
              "    <path d=\"M18.56 5.44l.94 2.06.94-2.06 2.06-.94-2.06-.94-.94-2.06-.94 2.06-2.06.94zm-11 1L8.5 8.5l.94-2.06 2.06-.94-2.06-.94L8.5 2.5l-.94 2.06-2.06.94zm10 10l.94 2.06.94-2.06 2.06-.94-2.06-.94-.94-2.06-.94 2.06-2.06.94z\"/><path d=\"M17.41 7.96l-1.37-1.37c-.4-.4-.92-.59-1.43-.59-.52 0-1.04.2-1.43.59L10.3 9.45l-7.72 7.72c-.78.78-.78 2.05 0 2.83L4 21.41c.39.39.9.59 1.41.59.51 0 1.02-.2 1.41-.59l7.78-7.78 2.81-2.81c.8-.78.8-2.07 0-2.86zM5.41 20L4 18.59l7.72-7.72 1.47 1.35L5.41 20z\"/>\n",
              "  </svg>\n",
              "      </button>\n",
              "      \n",
              "  <style>\n",
              "    .colab-df-container {\n",
              "      display:flex;\n",
              "      flex-wrap:wrap;\n",
              "      gap: 12px;\n",
              "    }\n",
              "\n",
              "    .colab-df-convert {\n",
              "      background-color: #E8F0FE;\n",
              "      border: none;\n",
              "      border-radius: 50%;\n",
              "      cursor: pointer;\n",
              "      display: none;\n",
              "      fill: #1967D2;\n",
              "      height: 32px;\n",
              "      padding: 0 0 0 0;\n",
              "      width: 32px;\n",
              "    }\n",
              "\n",
              "    .colab-df-convert:hover {\n",
              "      background-color: #E2EBFA;\n",
              "      box-shadow: 0px 1px 2px rgba(60, 64, 67, 0.3), 0px 1px 3px 1px rgba(60, 64, 67, 0.15);\n",
              "      fill: #174EA6;\n",
              "    }\n",
              "\n",
              "    [theme=dark] .colab-df-convert {\n",
              "      background-color: #3B4455;\n",
              "      fill: #D2E3FC;\n",
              "    }\n",
              "\n",
              "    [theme=dark] .colab-df-convert:hover {\n",
              "      background-color: #434B5C;\n",
              "      box-shadow: 0px 1px 3px 1px rgba(0, 0, 0, 0.15);\n",
              "      filter: drop-shadow(0px 1px 2px rgba(0, 0, 0, 0.3));\n",
              "      fill: #FFFFFF;\n",
              "    }\n",
              "  </style>\n",
              "\n",
              "      <script>\n",
              "        const buttonEl =\n",
              "          document.querySelector('#df-2ae96d2c-9ea0-44f1-98f2-8a766f9fda6e button.colab-df-convert');\n",
              "        buttonEl.style.display =\n",
              "          google.colab.kernel.accessAllowed ? 'block' : 'none';\n",
              "\n",
              "        async function convertToInteractive(key) {\n",
              "          const element = document.querySelector('#df-2ae96d2c-9ea0-44f1-98f2-8a766f9fda6e');\n",
              "          const dataTable =\n",
              "            await google.colab.kernel.invokeFunction('convertToInteractive',\n",
              "                                                     [key], {});\n",
              "          if (!dataTable) return;\n",
              "\n",
              "          const docLinkHtml = 'Like what you see? Visit the ' +\n",
              "            '<a target=\"_blank\" href=https://colab.research.google.com/notebooks/data_table.ipynb>data table notebook</a>'\n",
              "            + ' to learn more about interactive tables.';\n",
              "          element.innerHTML = '';\n",
              "          dataTable['output_type'] = 'display_data';\n",
              "          await google.colab.output.renderOutput(dataTable, element);\n",
              "          const docLink = document.createElement('div');\n",
              "          docLink.innerHTML = docLinkHtml;\n",
              "          element.appendChild(docLink);\n",
              "        }\n",
              "      </script>\n",
              "    </div>\n",
              "  </div>\n",
              "  "
            ]
          },
          "metadata": {},
          "execution_count": 37
        }
      ]
    },
    {
      "cell_type": "markdown",
      "source": [
        "Here, the first and last row have been dropped, because they contain only two non-null values."
      ],
      "metadata": {
        "id": "1rmeQjdQSmst"
      }
    },
    {
      "cell_type": "markdown",
      "source": [
        "### Filling in missing values automatically"
      ],
      "metadata": {
        "id": "67yq6yZjPOQM"
      }
    },
    {
      "cell_type": "markdown",
      "source": [
        "Depending on your dataset, it can sometimes make more sense to fill null values with valid ones rather than drop them. Pandas provides `fillna`, which returns a copy of the `Series` or `DataFrame` with the missing values replaced with one of your choosing. Let's create another example `Series` to see how this works in practice."
      ],
      "metadata": {
        "id": "m_PPUSnnPUnU"
      }
    },
    {
      "cell_type": "code",
      "source": [
        "# You can fill all of the null entries with a single value, such as 0:\n",
        "df1.fillna(0)"
      ],
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/",
          "height": 143
        },
        "id": "wQolS3TCTAuH",
        "outputId": "2904fef8-35b6-4390-f725-dc32a7a35bb1"
      },
      "execution_count": 38,
      "outputs": [
        {
          "output_type": "execute_result",
          "data": {
            "text/plain": [
              "     0    1  2    3\n",
              "0  1.0  0.0  7  0.0\n",
              "1  2.0  5.0  8  0.0\n",
              "2  0.0  6.0  9  0.0"
            ],
            "text/html": [
              "\n",
              "  <div id=\"df-990cb359-a0db-44e9-b07b-0e979682b127\">\n",
              "    <div class=\"colab-df-container\">\n",
              "      <div>\n",
              "<style scoped>\n",
              "    .dataframe tbody tr th:only-of-type {\n",
              "        vertical-align: middle;\n",
              "    }\n",
              "\n",
              "    .dataframe tbody tr th {\n",
              "        vertical-align: top;\n",
              "    }\n",
              "\n",
              "    .dataframe thead th {\n",
              "        text-align: right;\n",
              "    }\n",
              "</style>\n",
              "<table border=\"1\" class=\"dataframe\">\n",
              "  <thead>\n",
              "    <tr style=\"text-align: right;\">\n",
              "      <th></th>\n",
              "      <th>0</th>\n",
              "      <th>1</th>\n",
              "      <th>2</th>\n",
              "      <th>3</th>\n",
              "    </tr>\n",
              "  </thead>\n",
              "  <tbody>\n",
              "    <tr>\n",
              "      <th>0</th>\n",
              "      <td>1.0</td>\n",
              "      <td>0.0</td>\n",
              "      <td>7</td>\n",
              "      <td>0.0</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>1</th>\n",
              "      <td>2.0</td>\n",
              "      <td>5.0</td>\n",
              "      <td>8</td>\n",
              "      <td>0.0</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>2</th>\n",
              "      <td>0.0</td>\n",
              "      <td>6.0</td>\n",
              "      <td>9</td>\n",
              "      <td>0.0</td>\n",
              "    </tr>\n",
              "  </tbody>\n",
              "</table>\n",
              "</div>\n",
              "      <button class=\"colab-df-convert\" onclick=\"convertToInteractive('df-990cb359-a0db-44e9-b07b-0e979682b127')\"\n",
              "              title=\"Convert this dataframe to an interactive table.\"\n",
              "              style=\"display:none;\">\n",
              "        \n",
              "  <svg xmlns=\"http://www.w3.org/2000/svg\" height=\"24px\"viewBox=\"0 0 24 24\"\n",
              "       width=\"24px\">\n",
              "    <path d=\"M0 0h24v24H0V0z\" fill=\"none\"/>\n",
              "    <path d=\"M18.56 5.44l.94 2.06.94-2.06 2.06-.94-2.06-.94-.94-2.06-.94 2.06-2.06.94zm-11 1L8.5 8.5l.94-2.06 2.06-.94-2.06-.94L8.5 2.5l-.94 2.06-2.06.94zm10 10l.94 2.06.94-2.06 2.06-.94-2.06-.94-.94-2.06-.94 2.06-2.06.94z\"/><path d=\"M17.41 7.96l-1.37-1.37c-.4-.4-.92-.59-1.43-.59-.52 0-1.04.2-1.43.59L10.3 9.45l-7.72 7.72c-.78.78-.78 2.05 0 2.83L4 21.41c.39.39.9.59 1.41.59.51 0 1.02-.2 1.41-.59l7.78-7.78 2.81-2.81c.8-.78.8-2.07 0-2.86zM5.41 20L4 18.59l7.72-7.72 1.47 1.35L5.41 20z\"/>\n",
              "  </svg>\n",
              "      </button>\n",
              "      \n",
              "  <style>\n",
              "    .colab-df-container {\n",
              "      display:flex;\n",
              "      flex-wrap:wrap;\n",
              "      gap: 12px;\n",
              "    }\n",
              "\n",
              "    .colab-df-convert {\n",
              "      background-color: #E8F0FE;\n",
              "      border: none;\n",
              "      border-radius: 50%;\n",
              "      cursor: pointer;\n",
              "      display: none;\n",
              "      fill: #1967D2;\n",
              "      height: 32px;\n",
              "      padding: 0 0 0 0;\n",
              "      width: 32px;\n",
              "    }\n",
              "\n",
              "    .colab-df-convert:hover {\n",
              "      background-color: #E2EBFA;\n",
              "      box-shadow: 0px 1px 2px rgba(60, 64, 67, 0.3), 0px 1px 3px 1px rgba(60, 64, 67, 0.15);\n",
              "      fill: #174EA6;\n",
              "    }\n",
              "\n",
              "    [theme=dark] .colab-df-convert {\n",
              "      background-color: #3B4455;\n",
              "      fill: #D2E3FC;\n",
              "    }\n",
              "\n",
              "    [theme=dark] .colab-df-convert:hover {\n",
              "      background-color: #434B5C;\n",
              "      box-shadow: 0px 1px 3px 1px rgba(0, 0, 0, 0.15);\n",
              "      filter: drop-shadow(0px 1px 2px rgba(0, 0, 0, 0.3));\n",
              "      fill: #FFFFFF;\n",
              "    }\n",
              "  </style>\n",
              "\n",
              "      <script>\n",
              "        const buttonEl =\n",
              "          document.querySelector('#df-990cb359-a0db-44e9-b07b-0e979682b127 button.colab-df-convert');\n",
              "        buttonEl.style.display =\n",
              "          google.colab.kernel.accessAllowed ? 'block' : 'none';\n",
              "\n",
              "        async function convertToInteractive(key) {\n",
              "          const element = document.querySelector('#df-990cb359-a0db-44e9-b07b-0e979682b127');\n",
              "          const dataTable =\n",
              "            await google.colab.kernel.invokeFunction('convertToInteractive',\n",
              "                                                     [key], {});\n",
              "          if (!dataTable) return;\n",
              "\n",
              "          const docLinkHtml = 'Like what you see? Visit the ' +\n",
              "            '<a target=\"_blank\" href=https://colab.research.google.com/notebooks/data_table.ipynb>data table notebook</a>'\n",
              "            + ' to learn more about interactive tables.';\n",
              "          element.innerHTML = '';\n",
              "          dataTable['output_type'] = 'display_data';\n",
              "          await google.colab.output.renderOutput(dataTable, element);\n",
              "          const docLink = document.createElement('div');\n",
              "          docLink.innerHTML = docLinkHtml;\n",
              "          element.appendChild(docLink);\n",
              "        }\n",
              "      </script>\n",
              "    </div>\n",
              "  </div>\n",
              "  "
            ]
          },
          "metadata": {},
          "execution_count": 38
        }
      ]
    },
    {
      "cell_type": "markdown",
      "source": [
        "We could also replace missing values with whatever value comes directly after/before it in the same column. (This makes a lot of sense for datasets where the observations have some sort of logical order to them.)\n",
        "\n",
        "You can forward-fill null values, which is to use the last valid value to fill a null:"
      ],
      "metadata": {
        "id": "1Y8LvnwUTG01"
      }
    },
    {
      "cell_type": "code",
      "source": [
        "df1.fillna(method='ffill', axis=0)"
      ],
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/",
          "height": 143
        },
        "id": "Q5s_EBR-TLaN",
        "outputId": "700b49a5-4c99-406f-f389-3b409922f08b"
      },
      "execution_count": 39,
      "outputs": [
        {
          "output_type": "execute_result",
          "data": {
            "text/plain": [
              "     0    1  2   3\n",
              "0  1.0  NaN  7 NaN\n",
              "1  2.0  5.0  8 NaN\n",
              "2  2.0  6.0  9 NaN"
            ],
            "text/html": [
              "\n",
              "  <div id=\"df-893106f8-5be4-48ed-b537-ced3d5da0142\">\n",
              "    <div class=\"colab-df-container\">\n",
              "      <div>\n",
              "<style scoped>\n",
              "    .dataframe tbody tr th:only-of-type {\n",
              "        vertical-align: middle;\n",
              "    }\n",
              "\n",
              "    .dataframe tbody tr th {\n",
              "        vertical-align: top;\n",
              "    }\n",
              "\n",
              "    .dataframe thead th {\n",
              "        text-align: right;\n",
              "    }\n",
              "</style>\n",
              "<table border=\"1\" class=\"dataframe\">\n",
              "  <thead>\n",
              "    <tr style=\"text-align: right;\">\n",
              "      <th></th>\n",
              "      <th>0</th>\n",
              "      <th>1</th>\n",
              "      <th>2</th>\n",
              "      <th>3</th>\n",
              "    </tr>\n",
              "  </thead>\n",
              "  <tbody>\n",
              "    <tr>\n",
              "      <th>0</th>\n",
              "      <td>1.0</td>\n",
              "      <td>NaN</td>\n",
              "      <td>7</td>\n",
              "      <td>NaN</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>1</th>\n",
              "      <td>2.0</td>\n",
              "      <td>5.0</td>\n",
              "      <td>8</td>\n",
              "      <td>NaN</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>2</th>\n",
              "      <td>2.0</td>\n",
              "      <td>6.0</td>\n",
              "      <td>9</td>\n",
              "      <td>NaN</td>\n",
              "    </tr>\n",
              "  </tbody>\n",
              "</table>\n",
              "</div>\n",
              "      <button class=\"colab-df-convert\" onclick=\"convertToInteractive('df-893106f8-5be4-48ed-b537-ced3d5da0142')\"\n",
              "              title=\"Convert this dataframe to an interactive table.\"\n",
              "              style=\"display:none;\">\n",
              "        \n",
              "  <svg xmlns=\"http://www.w3.org/2000/svg\" height=\"24px\"viewBox=\"0 0 24 24\"\n",
              "       width=\"24px\">\n",
              "    <path d=\"M0 0h24v24H0V0z\" fill=\"none\"/>\n",
              "    <path d=\"M18.56 5.44l.94 2.06.94-2.06 2.06-.94-2.06-.94-.94-2.06-.94 2.06-2.06.94zm-11 1L8.5 8.5l.94-2.06 2.06-.94-2.06-.94L8.5 2.5l-.94 2.06-2.06.94zm10 10l.94 2.06.94-2.06 2.06-.94-2.06-.94-.94-2.06-.94 2.06-2.06.94z\"/><path d=\"M17.41 7.96l-1.37-1.37c-.4-.4-.92-.59-1.43-.59-.52 0-1.04.2-1.43.59L10.3 9.45l-7.72 7.72c-.78.78-.78 2.05 0 2.83L4 21.41c.39.39.9.59 1.41.59.51 0 1.02-.2 1.41-.59l7.78-7.78 2.81-2.81c.8-.78.8-2.07 0-2.86zM5.41 20L4 18.59l7.72-7.72 1.47 1.35L5.41 20z\"/>\n",
              "  </svg>\n",
              "      </button>\n",
              "      \n",
              "  <style>\n",
              "    .colab-df-container {\n",
              "      display:flex;\n",
              "      flex-wrap:wrap;\n",
              "      gap: 12px;\n",
              "    }\n",
              "\n",
              "    .colab-df-convert {\n",
              "      background-color: #E8F0FE;\n",
              "      border: none;\n",
              "      border-radius: 50%;\n",
              "      cursor: pointer;\n",
              "      display: none;\n",
              "      fill: #1967D2;\n",
              "      height: 32px;\n",
              "      padding: 0 0 0 0;\n",
              "      width: 32px;\n",
              "    }\n",
              "\n",
              "    .colab-df-convert:hover {\n",
              "      background-color: #E2EBFA;\n",
              "      box-shadow: 0px 1px 2px rgba(60, 64, 67, 0.3), 0px 1px 3px 1px rgba(60, 64, 67, 0.15);\n",
              "      fill: #174EA6;\n",
              "    }\n",
              "\n",
              "    [theme=dark] .colab-df-convert {\n",
              "      background-color: #3B4455;\n",
              "      fill: #D2E3FC;\n",
              "    }\n",
              "\n",
              "    [theme=dark] .colab-df-convert:hover {\n",
              "      background-color: #434B5C;\n",
              "      box-shadow: 0px 1px 3px 1px rgba(0, 0, 0, 0.15);\n",
              "      filter: drop-shadow(0px 1px 2px rgba(0, 0, 0, 0.3));\n",
              "      fill: #FFFFFF;\n",
              "    }\n",
              "  </style>\n",
              "\n",
              "      <script>\n",
              "        const buttonEl =\n",
              "          document.querySelector('#df-893106f8-5be4-48ed-b537-ced3d5da0142 button.colab-df-convert');\n",
              "        buttonEl.style.display =\n",
              "          google.colab.kernel.accessAllowed ? 'block' : 'none';\n",
              "\n",
              "        async function convertToInteractive(key) {\n",
              "          const element = document.querySelector('#df-893106f8-5be4-48ed-b537-ced3d5da0142');\n",
              "          const dataTable =\n",
              "            await google.colab.kernel.invokeFunction('convertToInteractive',\n",
              "                                                     [key], {});\n",
              "          if (!dataTable) return;\n",
              "\n",
              "          const docLinkHtml = 'Like what you see? Visit the ' +\n",
              "            '<a target=\"_blank\" href=https://colab.research.google.com/notebooks/data_table.ipynb>data table notebook</a>'\n",
              "            + ' to learn more about interactive tables.';\n",
              "          element.innerHTML = '';\n",
              "          dataTable['output_type'] = 'display_data';\n",
              "          await google.colab.output.renderOutput(dataTable, element);\n",
              "          const docLink = document.createElement('div');\n",
              "          docLink.innerHTML = docLinkHtml;\n",
              "          element.appendChild(docLink);\n",
              "        }\n",
              "      </script>\n",
              "    </div>\n",
              "  </div>\n",
              "  "
            ]
          },
          "metadata": {},
          "execution_count": 39
        }
      ]
    },
    {
      "cell_type": "markdown",
      "source": [
        "Back-fill to propagate the next valid value backward to fill a null:"
      ],
      "metadata": {
        "id": "jjp9MPa3Pm6t"
      }
    },
    {
      "cell_type": "code",
      "source": [
        "df1.fillna(method='bfill', axis=0)"
      ],
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/",
          "height": 143
        },
        "id": "EU5YAVXPPJ_c",
        "outputId": "60db54d1-f083-4dd3-81a5-fbdd22892c98"
      },
      "execution_count": 40,
      "outputs": [
        {
          "output_type": "execute_result",
          "data": {
            "text/plain": [
              "     0    1  2   3\n",
              "0  1.0  5.0  7 NaN\n",
              "1  2.0  5.0  8 NaN\n",
              "2  NaN  6.0  9 NaN"
            ],
            "text/html": [
              "\n",
              "  <div id=\"df-9f98845e-b9d6-4153-9ee8-38adbd9b7a30\">\n",
              "    <div class=\"colab-df-container\">\n",
              "      <div>\n",
              "<style scoped>\n",
              "    .dataframe tbody tr th:only-of-type {\n",
              "        vertical-align: middle;\n",
              "    }\n",
              "\n",
              "    .dataframe tbody tr th {\n",
              "        vertical-align: top;\n",
              "    }\n",
              "\n",
              "    .dataframe thead th {\n",
              "        text-align: right;\n",
              "    }\n",
              "</style>\n",
              "<table border=\"1\" class=\"dataframe\">\n",
              "  <thead>\n",
              "    <tr style=\"text-align: right;\">\n",
              "      <th></th>\n",
              "      <th>0</th>\n",
              "      <th>1</th>\n",
              "      <th>2</th>\n",
              "      <th>3</th>\n",
              "    </tr>\n",
              "  </thead>\n",
              "  <tbody>\n",
              "    <tr>\n",
              "      <th>0</th>\n",
              "      <td>1.0</td>\n",
              "      <td>5.0</td>\n",
              "      <td>7</td>\n",
              "      <td>NaN</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>1</th>\n",
              "      <td>2.0</td>\n",
              "      <td>5.0</td>\n",
              "      <td>8</td>\n",
              "      <td>NaN</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>2</th>\n",
              "      <td>NaN</td>\n",
              "      <td>6.0</td>\n",
              "      <td>9</td>\n",
              "      <td>NaN</td>\n",
              "    </tr>\n",
              "  </tbody>\n",
              "</table>\n",
              "</div>\n",
              "      <button class=\"colab-df-convert\" onclick=\"convertToInteractive('df-9f98845e-b9d6-4153-9ee8-38adbd9b7a30')\"\n",
              "              title=\"Convert this dataframe to an interactive table.\"\n",
              "              style=\"display:none;\">\n",
              "        \n",
              "  <svg xmlns=\"http://www.w3.org/2000/svg\" height=\"24px\"viewBox=\"0 0 24 24\"\n",
              "       width=\"24px\">\n",
              "    <path d=\"M0 0h24v24H0V0z\" fill=\"none\"/>\n",
              "    <path d=\"M18.56 5.44l.94 2.06.94-2.06 2.06-.94-2.06-.94-.94-2.06-.94 2.06-2.06.94zm-11 1L8.5 8.5l.94-2.06 2.06-.94-2.06-.94L8.5 2.5l-.94 2.06-2.06.94zm10 10l.94 2.06.94-2.06 2.06-.94-2.06-.94-.94-2.06-.94 2.06-2.06.94z\"/><path d=\"M17.41 7.96l-1.37-1.37c-.4-.4-.92-.59-1.43-.59-.52 0-1.04.2-1.43.59L10.3 9.45l-7.72 7.72c-.78.78-.78 2.05 0 2.83L4 21.41c.39.39.9.59 1.41.59.51 0 1.02-.2 1.41-.59l7.78-7.78 2.81-2.81c.8-.78.8-2.07 0-2.86zM5.41 20L4 18.59l7.72-7.72 1.47 1.35L5.41 20z\"/>\n",
              "  </svg>\n",
              "      </button>\n",
              "      \n",
              "  <style>\n",
              "    .colab-df-container {\n",
              "      display:flex;\n",
              "      flex-wrap:wrap;\n",
              "      gap: 12px;\n",
              "    }\n",
              "\n",
              "    .colab-df-convert {\n",
              "      background-color: #E8F0FE;\n",
              "      border: none;\n",
              "      border-radius: 50%;\n",
              "      cursor: pointer;\n",
              "      display: none;\n",
              "      fill: #1967D2;\n",
              "      height: 32px;\n",
              "      padding: 0 0 0 0;\n",
              "      width: 32px;\n",
              "    }\n",
              "\n",
              "    .colab-df-convert:hover {\n",
              "      background-color: #E2EBFA;\n",
              "      box-shadow: 0px 1px 2px rgba(60, 64, 67, 0.3), 0px 1px 3px 1px rgba(60, 64, 67, 0.15);\n",
              "      fill: #174EA6;\n",
              "    }\n",
              "\n",
              "    [theme=dark] .colab-df-convert {\n",
              "      background-color: #3B4455;\n",
              "      fill: #D2E3FC;\n",
              "    }\n",
              "\n",
              "    [theme=dark] .colab-df-convert:hover {\n",
              "      background-color: #434B5C;\n",
              "      box-shadow: 0px 1px 3px 1px rgba(0, 0, 0, 0.15);\n",
              "      filter: drop-shadow(0px 1px 2px rgba(0, 0, 0, 0.3));\n",
              "      fill: #FFFFFF;\n",
              "    }\n",
              "  </style>\n",
              "\n",
              "      <script>\n",
              "        const buttonEl =\n",
              "          document.querySelector('#df-9f98845e-b9d6-4153-9ee8-38adbd9b7a30 button.colab-df-convert');\n",
              "        buttonEl.style.display =\n",
              "          google.colab.kernel.accessAllowed ? 'block' : 'none';\n",
              "\n",
              "        async function convertToInteractive(key) {\n",
              "          const element = document.querySelector('#df-9f98845e-b9d6-4153-9ee8-38adbd9b7a30');\n",
              "          const dataTable =\n",
              "            await google.colab.kernel.invokeFunction('convertToInteractive',\n",
              "                                                     [key], {});\n",
              "          if (!dataTable) return;\n",
              "\n",
              "          const docLinkHtml = 'Like what you see? Visit the ' +\n",
              "            '<a target=\"_blank\" href=https://colab.research.google.com/notebooks/data_table.ipynb>data table notebook</a>'\n",
              "            + ' to learn more about interactive tables.';\n",
              "          element.innerHTML = '';\n",
              "          dataTable['output_type'] = 'display_data';\n",
              "          await google.colab.output.renderOutput(dataTable, element);\n",
              "          const docLink = document.createElement('div');\n",
              "          docLink.innerHTML = docLinkHtml;\n",
              "          element.appendChild(docLink);\n",
              "        }\n",
              "      </script>\n",
              "    </div>\n",
              "  </div>\n",
              "  "
            ]
          },
          "metadata": {},
          "execution_count": 40
        }
      ]
    },
    {
      "cell_type": "markdown",
      "source": [
        "Notice that when a previous value is not available for forward-filling, the null value remains."
      ],
      "metadata": {
        "id": "DQ9o-UMCUETO"
      }
    },
    {
      "cell_type": "markdown",
      "source": [
        "### Imputation of missing value"
      ],
      "metadata": {
        "id": "w7QdRCiaWE2n"
      }
    },
    {
      "cell_type": "markdown",
      "source": [
        "#### Univariate feature imputation"
      ],
      "metadata": {
        "id": "sbYPUqJHYBqW"
      }
    },
    {
      "cell_type": "markdown",
      "source": [
        "The `SimpleImputer` class provides basic strategies for imputing missing values. Missing values can be imputed with a provided constant value, or using the statistics (mean, median or most frequent) of each column in which the missing values are located. This class also allows for different missing values encodings."
      ],
      "metadata": {
        "id": "81HYCmx-WO2W"
      }
    },
    {
      "cell_type": "code",
      "source": [
        "df2 = pd.DataFrame([[1, 2], [np.nan, 3], [7, 6]])\n",
        "df2"
      ],
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/",
          "height": 143
        },
        "id": "SzwfhyQAWORe",
        "outputId": "27b1ff06-a280-492c-d1f5-cef9f6ff435c"
      },
      "execution_count": 43,
      "outputs": [
        {
          "output_type": "execute_result",
          "data": {
            "text/plain": [
              "     0  1\n",
              "0  1.0  2\n",
              "1  NaN  3\n",
              "2  7.0  6"
            ],
            "text/html": [
              "\n",
              "  <div id=\"df-0f91a47c-eccf-4d56-82ad-aa19c15f7552\">\n",
              "    <div class=\"colab-df-container\">\n",
              "      <div>\n",
              "<style scoped>\n",
              "    .dataframe tbody tr th:only-of-type {\n",
              "        vertical-align: middle;\n",
              "    }\n",
              "\n",
              "    .dataframe tbody tr th {\n",
              "        vertical-align: top;\n",
              "    }\n",
              "\n",
              "    .dataframe thead th {\n",
              "        text-align: right;\n",
              "    }\n",
              "</style>\n",
              "<table border=\"1\" class=\"dataframe\">\n",
              "  <thead>\n",
              "    <tr style=\"text-align: right;\">\n",
              "      <th></th>\n",
              "      <th>0</th>\n",
              "      <th>1</th>\n",
              "    </tr>\n",
              "  </thead>\n",
              "  <tbody>\n",
              "    <tr>\n",
              "      <th>0</th>\n",
              "      <td>1.0</td>\n",
              "      <td>2</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>1</th>\n",
              "      <td>NaN</td>\n",
              "      <td>3</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>2</th>\n",
              "      <td>7.0</td>\n",
              "      <td>6</td>\n",
              "    </tr>\n",
              "  </tbody>\n",
              "</table>\n",
              "</div>\n",
              "      <button class=\"colab-df-convert\" onclick=\"convertToInteractive('df-0f91a47c-eccf-4d56-82ad-aa19c15f7552')\"\n",
              "              title=\"Convert this dataframe to an interactive table.\"\n",
              "              style=\"display:none;\">\n",
              "        \n",
              "  <svg xmlns=\"http://www.w3.org/2000/svg\" height=\"24px\"viewBox=\"0 0 24 24\"\n",
              "       width=\"24px\">\n",
              "    <path d=\"M0 0h24v24H0V0z\" fill=\"none\"/>\n",
              "    <path d=\"M18.56 5.44l.94 2.06.94-2.06 2.06-.94-2.06-.94-.94-2.06-.94 2.06-2.06.94zm-11 1L8.5 8.5l.94-2.06 2.06-.94-2.06-.94L8.5 2.5l-.94 2.06-2.06.94zm10 10l.94 2.06.94-2.06 2.06-.94-2.06-.94-.94-2.06-.94 2.06-2.06.94z\"/><path d=\"M17.41 7.96l-1.37-1.37c-.4-.4-.92-.59-1.43-.59-.52 0-1.04.2-1.43.59L10.3 9.45l-7.72 7.72c-.78.78-.78 2.05 0 2.83L4 21.41c.39.39.9.59 1.41.59.51 0 1.02-.2 1.41-.59l7.78-7.78 2.81-2.81c.8-.78.8-2.07 0-2.86zM5.41 20L4 18.59l7.72-7.72 1.47 1.35L5.41 20z\"/>\n",
              "  </svg>\n",
              "      </button>\n",
              "      \n",
              "  <style>\n",
              "    .colab-df-container {\n",
              "      display:flex;\n",
              "      flex-wrap:wrap;\n",
              "      gap: 12px;\n",
              "    }\n",
              "\n",
              "    .colab-df-convert {\n",
              "      background-color: #E8F0FE;\n",
              "      border: none;\n",
              "      border-radius: 50%;\n",
              "      cursor: pointer;\n",
              "      display: none;\n",
              "      fill: #1967D2;\n",
              "      height: 32px;\n",
              "      padding: 0 0 0 0;\n",
              "      width: 32px;\n",
              "    }\n",
              "\n",
              "    .colab-df-convert:hover {\n",
              "      background-color: #E2EBFA;\n",
              "      box-shadow: 0px 1px 2px rgba(60, 64, 67, 0.3), 0px 1px 3px 1px rgba(60, 64, 67, 0.15);\n",
              "      fill: #174EA6;\n",
              "    }\n",
              "\n",
              "    [theme=dark] .colab-df-convert {\n",
              "      background-color: #3B4455;\n",
              "      fill: #D2E3FC;\n",
              "    }\n",
              "\n",
              "    [theme=dark] .colab-df-convert:hover {\n",
              "      background-color: #434B5C;\n",
              "      box-shadow: 0px 1px 3px 1px rgba(0, 0, 0, 0.15);\n",
              "      filter: drop-shadow(0px 1px 2px rgba(0, 0, 0, 0.3));\n",
              "      fill: #FFFFFF;\n",
              "    }\n",
              "  </style>\n",
              "\n",
              "      <script>\n",
              "        const buttonEl =\n",
              "          document.querySelector('#df-0f91a47c-eccf-4d56-82ad-aa19c15f7552 button.colab-df-convert');\n",
              "        buttonEl.style.display =\n",
              "          google.colab.kernel.accessAllowed ? 'block' : 'none';\n",
              "\n",
              "        async function convertToInteractive(key) {\n",
              "          const element = document.querySelector('#df-0f91a47c-eccf-4d56-82ad-aa19c15f7552');\n",
              "          const dataTable =\n",
              "            await google.colab.kernel.invokeFunction('convertToInteractive',\n",
              "                                                     [key], {});\n",
              "          if (!dataTable) return;\n",
              "\n",
              "          const docLinkHtml = 'Like what you see? Visit the ' +\n",
              "            '<a target=\"_blank\" href=https://colab.research.google.com/notebooks/data_table.ipynb>data table notebook</a>'\n",
              "            + ' to learn more about interactive tables.';\n",
              "          element.innerHTML = '';\n",
              "          dataTable['output_type'] = 'display_data';\n",
              "          await google.colab.output.renderOutput(dataTable, element);\n",
              "          const docLink = document.createElement('div');\n",
              "          docLink.innerHTML = docLinkHtml;\n",
              "          element.appendChild(docLink);\n",
              "        }\n",
              "      </script>\n",
              "    </div>\n",
              "  </div>\n",
              "  "
            ]
          },
          "metadata": {},
          "execution_count": 43
        }
      ]
    },
    {
      "cell_type": "markdown",
      "source": [
        "The following snippet demonstrates how to replace missing values, encoded as `np.nan`, using the mean value of the columns (axis 0) that contain the missing values:"
      ],
      "metadata": {
        "id": "xq_q1284XSUn"
      }
    },
    {
      "cell_type": "code",
      "source": [
        "imp = SimpleImputer(missing_values=np.nan, strategy='mean')\n",
        "imp.fit_transform(df2)"
      ],
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/"
        },
        "id": "oH126cdKT0xV",
        "outputId": "e9376a27-6f07-4eb3-de40-a5be31f4bb7b"
      },
      "execution_count": 44,
      "outputs": [
        {
          "output_type": "execute_result",
          "data": {
            "text/plain": [
              "array([[1., 2.],\n",
              "       [4., 3.],\n",
              "       [7., 6.]])"
            ]
          },
          "metadata": {},
          "execution_count": 44
        }
      ]
    },
    {
      "cell_type": "markdown",
      "source": [
        "The `SimpleImputer` class also supports categorical data represented as string values or pandas categoricals when using the 'most_frequent' or 'constant' strategy:"
      ],
      "metadata": {
        "id": "PcC-t4wzXx2u"
      }
    },
    {
      "cell_type": "code",
      "source": [
        "df2 = pd.DataFrame([[\"a\", \"x\"],\n",
        "           [np.nan, \"y\"],\n",
        "           [\"a\", np.nan],\n",
        "          [\"b\", \"y\"]], dtype=\"category\")\n",
        "df2"
      ],
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/",
          "height": 175
        },
        "id": "N4_M9wu6XirA",
        "outputId": "7d822a36-0765-46df-e9d0-45e6157beda3"
      },
      "execution_count": 45,
      "outputs": [
        {
          "output_type": "execute_result",
          "data": {
            "text/plain": [
              "     0    1\n",
              "0    a    x\n",
              "1  NaN    y\n",
              "2    a  NaN\n",
              "3    b    y"
            ],
            "text/html": [
              "\n",
              "  <div id=\"df-8ea032a6-fcec-4a91-ada5-8626124d867d\">\n",
              "    <div class=\"colab-df-container\">\n",
              "      <div>\n",
              "<style scoped>\n",
              "    .dataframe tbody tr th:only-of-type {\n",
              "        vertical-align: middle;\n",
              "    }\n",
              "\n",
              "    .dataframe tbody tr th {\n",
              "        vertical-align: top;\n",
              "    }\n",
              "\n",
              "    .dataframe thead th {\n",
              "        text-align: right;\n",
              "    }\n",
              "</style>\n",
              "<table border=\"1\" class=\"dataframe\">\n",
              "  <thead>\n",
              "    <tr style=\"text-align: right;\">\n",
              "      <th></th>\n",
              "      <th>0</th>\n",
              "      <th>1</th>\n",
              "    </tr>\n",
              "  </thead>\n",
              "  <tbody>\n",
              "    <tr>\n",
              "      <th>0</th>\n",
              "      <td>a</td>\n",
              "      <td>x</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>1</th>\n",
              "      <td>NaN</td>\n",
              "      <td>y</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>2</th>\n",
              "      <td>a</td>\n",
              "      <td>NaN</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>3</th>\n",
              "      <td>b</td>\n",
              "      <td>y</td>\n",
              "    </tr>\n",
              "  </tbody>\n",
              "</table>\n",
              "</div>\n",
              "      <button class=\"colab-df-convert\" onclick=\"convertToInteractive('df-8ea032a6-fcec-4a91-ada5-8626124d867d')\"\n",
              "              title=\"Convert this dataframe to an interactive table.\"\n",
              "              style=\"display:none;\">\n",
              "        \n",
              "  <svg xmlns=\"http://www.w3.org/2000/svg\" height=\"24px\"viewBox=\"0 0 24 24\"\n",
              "       width=\"24px\">\n",
              "    <path d=\"M0 0h24v24H0V0z\" fill=\"none\"/>\n",
              "    <path d=\"M18.56 5.44l.94 2.06.94-2.06 2.06-.94-2.06-.94-.94-2.06-.94 2.06-2.06.94zm-11 1L8.5 8.5l.94-2.06 2.06-.94-2.06-.94L8.5 2.5l-.94 2.06-2.06.94zm10 10l.94 2.06.94-2.06 2.06-.94-2.06-.94-.94-2.06-.94 2.06-2.06.94z\"/><path d=\"M17.41 7.96l-1.37-1.37c-.4-.4-.92-.59-1.43-.59-.52 0-1.04.2-1.43.59L10.3 9.45l-7.72 7.72c-.78.78-.78 2.05 0 2.83L4 21.41c.39.39.9.59 1.41.59.51 0 1.02-.2 1.41-.59l7.78-7.78 2.81-2.81c.8-.78.8-2.07 0-2.86zM5.41 20L4 18.59l7.72-7.72 1.47 1.35L5.41 20z\"/>\n",
              "  </svg>\n",
              "      </button>\n",
              "      \n",
              "  <style>\n",
              "    .colab-df-container {\n",
              "      display:flex;\n",
              "      flex-wrap:wrap;\n",
              "      gap: 12px;\n",
              "    }\n",
              "\n",
              "    .colab-df-convert {\n",
              "      background-color: #E8F0FE;\n",
              "      border: none;\n",
              "      border-radius: 50%;\n",
              "      cursor: pointer;\n",
              "      display: none;\n",
              "      fill: #1967D2;\n",
              "      height: 32px;\n",
              "      padding: 0 0 0 0;\n",
              "      width: 32px;\n",
              "    }\n",
              "\n",
              "    .colab-df-convert:hover {\n",
              "      background-color: #E2EBFA;\n",
              "      box-shadow: 0px 1px 2px rgba(60, 64, 67, 0.3), 0px 1px 3px 1px rgba(60, 64, 67, 0.15);\n",
              "      fill: #174EA6;\n",
              "    }\n",
              "\n",
              "    [theme=dark] .colab-df-convert {\n",
              "      background-color: #3B4455;\n",
              "      fill: #D2E3FC;\n",
              "    }\n",
              "\n",
              "    [theme=dark] .colab-df-convert:hover {\n",
              "      background-color: #434B5C;\n",
              "      box-shadow: 0px 1px 3px 1px rgba(0, 0, 0, 0.15);\n",
              "      filter: drop-shadow(0px 1px 2px rgba(0, 0, 0, 0.3));\n",
              "      fill: #FFFFFF;\n",
              "    }\n",
              "  </style>\n",
              "\n",
              "      <script>\n",
              "        const buttonEl =\n",
              "          document.querySelector('#df-8ea032a6-fcec-4a91-ada5-8626124d867d button.colab-df-convert');\n",
              "        buttonEl.style.display =\n",
              "          google.colab.kernel.accessAllowed ? 'block' : 'none';\n",
              "\n",
              "        async function convertToInteractive(key) {\n",
              "          const element = document.querySelector('#df-8ea032a6-fcec-4a91-ada5-8626124d867d');\n",
              "          const dataTable =\n",
              "            await google.colab.kernel.invokeFunction('convertToInteractive',\n",
              "                                                     [key], {});\n",
              "          if (!dataTable) return;\n",
              "\n",
              "          const docLinkHtml = 'Like what you see? Visit the ' +\n",
              "            '<a target=\"_blank\" href=https://colab.research.google.com/notebooks/data_table.ipynb>data table notebook</a>'\n",
              "            + ' to learn more about interactive tables.';\n",
              "          element.innerHTML = '';\n",
              "          dataTable['output_type'] = 'display_data';\n",
              "          await google.colab.output.renderOutput(dataTable, element);\n",
              "          const docLink = document.createElement('div');\n",
              "          docLink.innerHTML = docLinkHtml;\n",
              "          element.appendChild(docLink);\n",
              "        }\n",
              "      </script>\n",
              "    </div>\n",
              "  </div>\n",
              "  "
            ]
          },
          "metadata": {},
          "execution_count": 45
        }
      ]
    },
    {
      "cell_type": "code",
      "source": [
        "imp = SimpleImputer(strategy=\"most_frequent\")\n",
        "print(imp.fit_transform(df2))"
      ],
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/"
        },
        "id": "V-etH5LfX8Sk",
        "outputId": "c4481527-4d71-4187-ece3-d28b9293cfb3"
      },
      "execution_count": 46,
      "outputs": [
        {
          "output_type": "stream",
          "name": "stdout",
          "text": [
            "[['a' 'x']\n",
            " ['a' 'y']\n",
            " ['a' 'y']\n",
            " ['b' 'y']]\n"
          ]
        }
      ]
    },
    {
      "cell_type": "markdown",
      "source": [
        "#### Multivariate feature imputation"
      ],
      "metadata": {
        "id": "qkV6BOWuYIL2"
      }
    },
    {
      "cell_type": "markdown",
      "source": [
        "A more sophisticated approach is to use the `IterativeImputer` class, which models each feature with missing values as a function of other features, and uses that estimate for imputation. "
      ],
      "metadata": {
        "id": "mLu_aOyPYLQP"
      }
    },
    {
      "cell_type": "code",
      "source": [
        "imp = IterativeImputer(max_iter=10, random_state=0)\n",
        "# the model learns that the second feature is double the first\n",
        "imp.fit_transform([[1, 2], [3, 6], [4, 8], [np.nan, 3], [7, np.nan]])"
      ],
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/"
        },
        "id": "b3W12VETX9Xi",
        "outputId": "18ba1728-c6f7-445a-aec3-6f7046ef08bc"
      },
      "execution_count": 47,
      "outputs": [
        {
          "output_type": "execute_result",
          "data": {
            "text/plain": [
              "array([[ 1.        ,  2.        ],\n",
              "       [ 3.        ,  6.        ],\n",
              "       [ 4.        ,  8.        ],\n",
              "       [ 1.50004509,  3.        ],\n",
              "       [ 7.        , 14.00004135]])"
            ]
          },
          "metadata": {},
          "execution_count": 47
        }
      ]
    },
    {
      "cell_type": "code",
      "source": [
        " # You can also use other regressor as well (default is regularized linear regression)\n",
        " est = ExtraTreesRegressor(n_estimators=10, random_state=0)\n",
        " imp = IterativeImputer(random_state=0, estimator=est)\n",
        " imp.fit_transform([[1, 2], [3, 6], [4, 8], [np.nan, 3], [7, np.nan]])"
      ],
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/"
        },
        "id": "rV0VUljZYzPA",
        "outputId": "1bf9adb0-2d7e-4cf5-b95e-cf7e0e084a79"
      },
      "execution_count": 49,
      "outputs": [
        {
          "output_type": "execute_result",
          "data": {
            "text/plain": [
              "array([[1. , 2. ],\n",
              "       [3. , 6. ],\n",
              "       [4. , 8. ],\n",
              "       [1.6, 3. ],\n",
              "       [7. , 8. ]])"
            ]
          },
          "metadata": {},
          "execution_count": 49
        }
      ]
    },
    {
      "cell_type": "markdown",
      "source": [
        "`IterativeImputer` can also be used for multiple imputations by applying it repeatedly to the same dataset with different random seeds when `sample_posterior=True`"
      ],
      "metadata": {
        "id": "df6tw1hLafQf"
      }
    },
    {
      "cell_type": "markdown",
      "source": [
        "The `KNNImputer` class provides imputation for filling in missing values using the k-Nearest Neighbors approach. By default, a euclidean distance metric that supports missing values, `nan_euclidean_distances`, is used to find the nearest neighbors. Each missing feature is imputed using values from `n_neighbors` nearest neighbors that have a value for the feature. The feature of the neighbors are averaged uniformly or weighted by distance to each neighbor. **If a sample has more than one feature missing, then the neighbors for that sample can be different depending on the particular feature being imputed.** \n",
        "\n",
        "The following snippet demonstrates how to replace missing values, encoded as `np.nan`, using the mean feature value of the two nearest neighbors of samples with missing values:"
      ],
      "metadata": {
        "id": "5nfw_iw3a9Xv"
      }
    },
    {
      "cell_type": "code",
      "source": [
        "X = [[1, 2, np.nan], [3, 4, 3], [np.nan, 6, 5], [8, 8, 7]]\n",
        "imputer = KNNImputer(n_neighbors=2, weights=\"uniform\")\n",
        "imputer.fit_transform(X)"
      ],
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/"
        },
        "id": "WIBrJ6p8ZnQv",
        "outputId": "9f87dd3b-9112-476e-d131-6e4f509a0caf"
      },
      "execution_count": 51,
      "outputs": [
        {
          "output_type": "execute_result",
          "data": {
            "text/plain": [
              "array([[1. , 2. , 4. ],\n",
              "       [3. , 4. , 3. ],\n",
              "       [5.5, 6. , 5. ],\n",
              "       [8. , 8. , 7. ]])"
            ]
          },
          "metadata": {},
          "execution_count": 51
        }
      ]
    },
    {
      "cell_type": "markdown",
      "source": [
        "if you wishes to apply matrix completion to your data"
      ],
      "metadata": {
        "id": "U1URVlpGedvt"
      }
    },
    {
      "cell_type": "code",
      "source": [
        "SoftImpute().fit_transform(X)"
      ],
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/"
        },
        "id": "mzfEaPRKbsZq",
        "outputId": "20c814e3-f071-4847-e623-8912e0f1d019"
      },
      "execution_count": 56,
      "outputs": [
        {
          "output_type": "stream",
          "name": "stdout",
          "text": [
            "[SoftImpute] Max Singular Value of X_init = 16.044670\n",
            "[SoftImpute] Iter 1: observed MAE=0.129498 rank=3\n",
            "[SoftImpute] Iter 2: observed MAE=0.129346 rank=3\n",
            "[SoftImpute] Iter 3: observed MAE=0.129795 rank=3\n",
            "[SoftImpute] Iter 4: observed MAE=0.131896 rank=3\n",
            "[SoftImpute] Iter 5: observed MAE=0.134509 rank=3\n",
            "[SoftImpute] Iter 6: observed MAE=0.137663 rank=3\n",
            "[SoftImpute] Iter 7: observed MAE=0.141068 rank=3\n",
            "[SoftImpute] Iter 8: observed MAE=0.143794 rank=3\n",
            "[SoftImpute] Iter 9: observed MAE=0.145304 rank=3\n",
            "[SoftImpute] Iter 10: observed MAE=0.145850 rank=3\n",
            "[SoftImpute] Iter 11: observed MAE=0.145866 rank=3\n",
            "[SoftImpute] Iter 12: observed MAE=0.145914 rank=3\n",
            "[SoftImpute] Iter 13: observed MAE=0.146068 rank=3\n",
            "[SoftImpute] Iter 14: observed MAE=0.146126 rank=2\n",
            "[SoftImpute] Iter 15: observed MAE=0.146125 rank=2\n",
            "[SoftImpute] Iter 16: observed MAE=0.146132 rank=2\n",
            "[SoftImpute] Iter 17: observed MAE=0.146126 rank=2\n",
            "[SoftImpute] Iter 18: observed MAE=0.146092 rank=2\n",
            "[SoftImpute] Iter 19: observed MAE=0.146022 rank=2\n",
            "[SoftImpute] Iter 20: observed MAE=0.145907 rank=2\n",
            "[SoftImpute] Iter 21: observed MAE=0.145740 rank=2\n",
            "[SoftImpute] Iter 22: observed MAE=0.145510 rank=2\n",
            "[SoftImpute] Iter 23: observed MAE=0.145209 rank=2\n",
            "[SoftImpute] Iter 24: observed MAE=0.144824 rank=2\n",
            "[SoftImpute] Iter 25: observed MAE=0.144345 rank=2\n",
            "[SoftImpute] Iter 26: observed MAE=0.143761 rank=2\n",
            "[SoftImpute] Iter 27: observed MAE=0.143059 rank=2\n",
            "[SoftImpute] Iter 28: observed MAE=0.142233 rank=2\n",
            "[SoftImpute] Iter 29: observed MAE=0.141275 rank=2\n",
            "[SoftImpute] Iter 30: observed MAE=0.140185 rank=2\n",
            "[SoftImpute] Iter 31: observed MAE=0.138969 rank=2\n",
            "[SoftImpute] Iter 32: observed MAE=0.137638 rank=2\n",
            "[SoftImpute] Iter 33: observed MAE=0.136213 rank=2\n",
            "[SoftImpute] Iter 34: observed MAE=0.134720 rank=2\n",
            "[SoftImpute] Iter 35: observed MAE=0.133194 rank=2\n",
            "[SoftImpute] Iter 36: observed MAE=0.131669 rank=2\n",
            "[SoftImpute] Iter 37: observed MAE=0.130180 rank=2\n",
            "[SoftImpute] Iter 38: observed MAE=0.129421 rank=2\n",
            "[SoftImpute] Iter 39: observed MAE=0.128890 rank=2\n",
            "[SoftImpute] Iter 40: observed MAE=0.128397 rank=2\n",
            "[SoftImpute] Iter 41: observed MAE=0.127946 rank=2\n",
            "[SoftImpute] Iter 42: observed MAE=0.127542 rank=2\n",
            "[SoftImpute] Iter 43: observed MAE=0.127185 rank=2\n",
            "[SoftImpute] Iter 44: observed MAE=0.126874 rank=2\n",
            "[SoftImpute] Iter 45: observed MAE=0.126605 rank=2\n",
            "[SoftImpute] Iter 46: observed MAE=0.126375 rank=2\n",
            "[SoftImpute] Iter 47: observed MAE=0.126180 rank=2\n",
            "[SoftImpute] Iter 48: observed MAE=0.126016 rank=2\n",
            "[SoftImpute] Iter 49: observed MAE=0.125878 rank=2\n",
            "[SoftImpute] Iter 50: observed MAE=0.125763 rank=2\n",
            "[SoftImpute] Iter 51: observed MAE=0.125668 rank=2\n",
            "[SoftImpute] Stopped after iteration 51 for lambda=0.320893\n"
          ]
        },
        {
          "output_type": "execute_result",
          "data": {
            "text/plain": [
              "array([[1.        , 2.        , 1.29115131],\n",
              "       [3.        , 4.        , 3.        ],\n",
              "       [5.10495139, 6.        , 5.        ],\n",
              "       [8.        , 8.        , 7.        ]])"
            ]
          },
          "metadata": {},
          "execution_count": 56
        }
      ]
    },
    {
      "cell_type": "markdown",
      "source": [
        "For more information, please refer to https://github.com/iskandr/fancyimpute or https://scikit-learn.org/stable/modules/classes.html#module-sklearn.impute, which provides a very efficient implementation for imputing your data."
      ],
      "metadata": {
        "id": "ScgFNYOKeh3v"
      }
    },
    {
      "cell_type": "markdown",
      "source": [
        "## Other data cleaning problem"
      ],
      "metadata": {
        "id": "4sRr-RibgwFg"
      }
    },
    {
      "cell_type": "markdown",
      "source": [
        "### Duplicate data entry"
      ],
      "metadata": {
        "id": "8BDWxFv_lmCK"
      }
    },
    {
      "cell_type": "markdown",
      "source": [
        "In addition to missing data, you will often encounter duplicated data in real-world datasets. Fortunately, pandas provides an easy means of detecting and removing duplicate entries."
      ],
      "metadata": {
        "id": "4WnpP5zYmH8p"
      }
    },
    {
      "cell_type": "markdown",
      "source": [
        "You can easily spot duplicate values using the `duplicated` method in pandas, which returns a Boolean mask indicating whether an entry in a DataFrame is a duplicate of an earlier one. Let's create another example DataFrame to see this in action."
      ],
      "metadata": {
        "id": "9alxYqZSmY_h"
      }
    },
    {
      "cell_type": "code",
      "source": [
        "df3 = pd.DataFrame({'letters': ['A','B'] * 2 + ['B'],\n",
        "                         'numbers': [1, 2, 1, 3, 3]})\n",
        "df3"
      ],
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/",
          "height": 206
        },
        "id": "YAwKStdnmgNz",
        "outputId": "e27d8f62-b35e-4b00-86e4-500fc4f81667"
      },
      "execution_count": 24,
      "outputs": [
        {
          "output_type": "execute_result",
          "data": {
            "text/plain": [
              "  letters  numbers\n",
              "0       A        1\n",
              "1       B        2\n",
              "2       A        1\n",
              "3       B        3\n",
              "4       B        3"
            ],
            "text/html": [
              "\n",
              "  <div id=\"df-1e3d15a9-e0de-4588-b0b6-39033f5dfdc2\">\n",
              "    <div class=\"colab-df-container\">\n",
              "      <div>\n",
              "<style scoped>\n",
              "    .dataframe tbody tr th:only-of-type {\n",
              "        vertical-align: middle;\n",
              "    }\n",
              "\n",
              "    .dataframe tbody tr th {\n",
              "        vertical-align: top;\n",
              "    }\n",
              "\n",
              "    .dataframe thead th {\n",
              "        text-align: right;\n",
              "    }\n",
              "</style>\n",
              "<table border=\"1\" class=\"dataframe\">\n",
              "  <thead>\n",
              "    <tr style=\"text-align: right;\">\n",
              "      <th></th>\n",
              "      <th>letters</th>\n",
              "      <th>numbers</th>\n",
              "    </tr>\n",
              "  </thead>\n",
              "  <tbody>\n",
              "    <tr>\n",
              "      <th>0</th>\n",
              "      <td>A</td>\n",
              "      <td>1</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>1</th>\n",
              "      <td>B</td>\n",
              "      <td>2</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>2</th>\n",
              "      <td>A</td>\n",
              "      <td>1</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>3</th>\n",
              "      <td>B</td>\n",
              "      <td>3</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>4</th>\n",
              "      <td>B</td>\n",
              "      <td>3</td>\n",
              "    </tr>\n",
              "  </tbody>\n",
              "</table>\n",
              "</div>\n",
              "      <button class=\"colab-df-convert\" onclick=\"convertToInteractive('df-1e3d15a9-e0de-4588-b0b6-39033f5dfdc2')\"\n",
              "              title=\"Convert this dataframe to an interactive table.\"\n",
              "              style=\"display:none;\">\n",
              "        \n",
              "  <svg xmlns=\"http://www.w3.org/2000/svg\" height=\"24px\"viewBox=\"0 0 24 24\"\n",
              "       width=\"24px\">\n",
              "    <path d=\"M0 0h24v24H0V0z\" fill=\"none\"/>\n",
              "    <path d=\"M18.56 5.44l.94 2.06.94-2.06 2.06-.94-2.06-.94-.94-2.06-.94 2.06-2.06.94zm-11 1L8.5 8.5l.94-2.06 2.06-.94-2.06-.94L8.5 2.5l-.94 2.06-2.06.94zm10 10l.94 2.06.94-2.06 2.06-.94-2.06-.94-.94-2.06-.94 2.06-2.06.94z\"/><path d=\"M17.41 7.96l-1.37-1.37c-.4-.4-.92-.59-1.43-.59-.52 0-1.04.2-1.43.59L10.3 9.45l-7.72 7.72c-.78.78-.78 2.05 0 2.83L4 21.41c.39.39.9.59 1.41.59.51 0 1.02-.2 1.41-.59l7.78-7.78 2.81-2.81c.8-.78.8-2.07 0-2.86zM5.41 20L4 18.59l7.72-7.72 1.47 1.35L5.41 20z\"/>\n",
              "  </svg>\n",
              "      </button>\n",
              "      \n",
              "  <style>\n",
              "    .colab-df-container {\n",
              "      display:flex;\n",
              "      flex-wrap:wrap;\n",
              "      gap: 12px;\n",
              "    }\n",
              "\n",
              "    .colab-df-convert {\n",
              "      background-color: #E8F0FE;\n",
              "      border: none;\n",
              "      border-radius: 50%;\n",
              "      cursor: pointer;\n",
              "      display: none;\n",
              "      fill: #1967D2;\n",
              "      height: 32px;\n",
              "      padding: 0 0 0 0;\n",
              "      width: 32px;\n",
              "    }\n",
              "\n",
              "    .colab-df-convert:hover {\n",
              "      background-color: #E2EBFA;\n",
              "      box-shadow: 0px 1px 2px rgba(60, 64, 67, 0.3), 0px 1px 3px 1px rgba(60, 64, 67, 0.15);\n",
              "      fill: #174EA6;\n",
              "    }\n",
              "\n",
              "    [theme=dark] .colab-df-convert {\n",
              "      background-color: #3B4455;\n",
              "      fill: #D2E3FC;\n",
              "    }\n",
              "\n",
              "    [theme=dark] .colab-df-convert:hover {\n",
              "      background-color: #434B5C;\n",
              "      box-shadow: 0px 1px 3px 1px rgba(0, 0, 0, 0.15);\n",
              "      filter: drop-shadow(0px 1px 2px rgba(0, 0, 0, 0.3));\n",
              "      fill: #FFFFFF;\n",
              "    }\n",
              "  </style>\n",
              "\n",
              "      <script>\n",
              "        const buttonEl =\n",
              "          document.querySelector('#df-1e3d15a9-e0de-4588-b0b6-39033f5dfdc2 button.colab-df-convert');\n",
              "        buttonEl.style.display =\n",
              "          google.colab.kernel.accessAllowed ? 'block' : 'none';\n",
              "\n",
              "        async function convertToInteractive(key) {\n",
              "          const element = document.querySelector('#df-1e3d15a9-e0de-4588-b0b6-39033f5dfdc2');\n",
              "          const dataTable =\n",
              "            await google.colab.kernel.invokeFunction('convertToInteractive',\n",
              "                                                     [key], {});\n",
              "          if (!dataTable) return;\n",
              "\n",
              "          const docLinkHtml = 'Like what you see? Visit the ' +\n",
              "            '<a target=\"_blank\" href=https://colab.research.google.com/notebooks/data_table.ipynb>data table notebook</a>'\n",
              "            + ' to learn more about interactive tables.';\n",
              "          element.innerHTML = '';\n",
              "          dataTable['output_type'] = 'display_data';\n",
              "          await google.colab.output.renderOutput(dataTable, element);\n",
              "          const docLink = document.createElement('div');\n",
              "          docLink.innerHTML = docLinkHtml;\n",
              "          element.appendChild(docLink);\n",
              "        }\n",
              "      </script>\n",
              "    </div>\n",
              "  </div>\n",
              "  "
            ]
          },
          "metadata": {},
          "execution_count": 24
        }
      ]
    },
    {
      "cell_type": "code",
      "source": [
        "df3.duplicated()"
      ],
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/"
        },
        "id": "ba7f9YPWmnSy",
        "outputId": "74ed9e7b-a983-4ef8-f4a4-7bc713cadca3"
      },
      "execution_count": 25,
      "outputs": [
        {
          "output_type": "execute_result",
          "data": {
            "text/plain": [
              "0    False\n",
              "1    False\n",
              "2     True\n",
              "3    False\n",
              "4     True\n",
              "dtype: bool"
            ]
          },
          "metadata": {},
          "execution_count": 25
        }
      ]
    },
    {
      "cell_type": "markdown",
      "source": [
        "`drop_duplicates` will simply returns a copy of the data for which all of the duplicated values are False:"
      ],
      "metadata": {
        "id": "6yGeE5HUmv5C"
      }
    },
    {
      "cell_type": "code",
      "source": [
        "df3.drop_duplicates()"
      ],
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/",
          "height": 143
        },
        "id": "oss_7HI8my8B",
        "outputId": "e5313091-d205-47be-d8b4-01ab59f339fc"
      },
      "execution_count": 26,
      "outputs": [
        {
          "output_type": "execute_result",
          "data": {
            "text/plain": [
              "  letters  numbers\n",
              "0       A        1\n",
              "1       B        2\n",
              "3       B        3"
            ],
            "text/html": [
              "\n",
              "  <div id=\"df-14a451e2-45bd-495e-9246-7e2e389dd213\">\n",
              "    <div class=\"colab-df-container\">\n",
              "      <div>\n",
              "<style scoped>\n",
              "    .dataframe tbody tr th:only-of-type {\n",
              "        vertical-align: middle;\n",
              "    }\n",
              "\n",
              "    .dataframe tbody tr th {\n",
              "        vertical-align: top;\n",
              "    }\n",
              "\n",
              "    .dataframe thead th {\n",
              "        text-align: right;\n",
              "    }\n",
              "</style>\n",
              "<table border=\"1\" class=\"dataframe\">\n",
              "  <thead>\n",
              "    <tr style=\"text-align: right;\">\n",
              "      <th></th>\n",
              "      <th>letters</th>\n",
              "      <th>numbers</th>\n",
              "    </tr>\n",
              "  </thead>\n",
              "  <tbody>\n",
              "    <tr>\n",
              "      <th>0</th>\n",
              "      <td>A</td>\n",
              "      <td>1</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>1</th>\n",
              "      <td>B</td>\n",
              "      <td>2</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>3</th>\n",
              "      <td>B</td>\n",
              "      <td>3</td>\n",
              "    </tr>\n",
              "  </tbody>\n",
              "</table>\n",
              "</div>\n",
              "      <button class=\"colab-df-convert\" onclick=\"convertToInteractive('df-14a451e2-45bd-495e-9246-7e2e389dd213')\"\n",
              "              title=\"Convert this dataframe to an interactive table.\"\n",
              "              style=\"display:none;\">\n",
              "        \n",
              "  <svg xmlns=\"http://www.w3.org/2000/svg\" height=\"24px\"viewBox=\"0 0 24 24\"\n",
              "       width=\"24px\">\n",
              "    <path d=\"M0 0h24v24H0V0z\" fill=\"none\"/>\n",
              "    <path d=\"M18.56 5.44l.94 2.06.94-2.06 2.06-.94-2.06-.94-.94-2.06-.94 2.06-2.06.94zm-11 1L8.5 8.5l.94-2.06 2.06-.94-2.06-.94L8.5 2.5l-.94 2.06-2.06.94zm10 10l.94 2.06.94-2.06 2.06-.94-2.06-.94-.94-2.06-.94 2.06-2.06.94z\"/><path d=\"M17.41 7.96l-1.37-1.37c-.4-.4-.92-.59-1.43-.59-.52 0-1.04.2-1.43.59L10.3 9.45l-7.72 7.72c-.78.78-.78 2.05 0 2.83L4 21.41c.39.39.9.59 1.41.59.51 0 1.02-.2 1.41-.59l7.78-7.78 2.81-2.81c.8-.78.8-2.07 0-2.86zM5.41 20L4 18.59l7.72-7.72 1.47 1.35L5.41 20z\"/>\n",
              "  </svg>\n",
              "      </button>\n",
              "      \n",
              "  <style>\n",
              "    .colab-df-container {\n",
              "      display:flex;\n",
              "      flex-wrap:wrap;\n",
              "      gap: 12px;\n",
              "    }\n",
              "\n",
              "    .colab-df-convert {\n",
              "      background-color: #E8F0FE;\n",
              "      border: none;\n",
              "      border-radius: 50%;\n",
              "      cursor: pointer;\n",
              "      display: none;\n",
              "      fill: #1967D2;\n",
              "      height: 32px;\n",
              "      padding: 0 0 0 0;\n",
              "      width: 32px;\n",
              "    }\n",
              "\n",
              "    .colab-df-convert:hover {\n",
              "      background-color: #E2EBFA;\n",
              "      box-shadow: 0px 1px 2px rgba(60, 64, 67, 0.3), 0px 1px 3px 1px rgba(60, 64, 67, 0.15);\n",
              "      fill: #174EA6;\n",
              "    }\n",
              "\n",
              "    [theme=dark] .colab-df-convert {\n",
              "      background-color: #3B4455;\n",
              "      fill: #D2E3FC;\n",
              "    }\n",
              "\n",
              "    [theme=dark] .colab-df-convert:hover {\n",
              "      background-color: #434B5C;\n",
              "      box-shadow: 0px 1px 3px 1px rgba(0, 0, 0, 0.15);\n",
              "      filter: drop-shadow(0px 1px 2px rgba(0, 0, 0, 0.3));\n",
              "      fill: #FFFFFF;\n",
              "    }\n",
              "  </style>\n",
              "\n",
              "      <script>\n",
              "        const buttonEl =\n",
              "          document.querySelector('#df-14a451e2-45bd-495e-9246-7e2e389dd213 button.colab-df-convert');\n",
              "        buttonEl.style.display =\n",
              "          google.colab.kernel.accessAllowed ? 'block' : 'none';\n",
              "\n",
              "        async function convertToInteractive(key) {\n",
              "          const element = document.querySelector('#df-14a451e2-45bd-495e-9246-7e2e389dd213');\n",
              "          const dataTable =\n",
              "            await google.colab.kernel.invokeFunction('convertToInteractive',\n",
              "                                                     [key], {});\n",
              "          if (!dataTable) return;\n",
              "\n",
              "          const docLinkHtml = 'Like what you see? Visit the ' +\n",
              "            '<a target=\"_blank\" href=https://colab.research.google.com/notebooks/data_table.ipynb>data table notebook</a>'\n",
              "            + ' to learn more about interactive tables.';\n",
              "          element.innerHTML = '';\n",
              "          dataTable['output_type'] = 'display_data';\n",
              "          await google.colab.output.renderOutput(dataTable, element);\n",
              "          const docLink = document.createElement('div');\n",
              "          docLink.innerHTML = docLinkHtml;\n",
              "          element.appendChild(docLink);\n",
              "        }\n",
              "      </script>\n",
              "    </div>\n",
              "  </div>\n",
              "  "
            ]
          },
          "metadata": {},
          "execution_count": 26
        }
      ]
    },
    {
      "cell_type": "markdown",
      "source": [
        "Both `duplicated` and `drop_duplicates` default to consider all columns but you can specify that they examine only a subset of columns in your DataFrame:"
      ],
      "metadata": {
        "id": "SwPOg52Rm6kz"
      }
    },
    {
      "cell_type": "code",
      "source": [
        "df3.drop_duplicates(['letters'])"
      ],
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/",
          "height": 112
        },
        "id": "C3gTUz1nm9Fp",
        "outputId": "4ad0cbe7-6eca-4674-870f-65c90fa0c4fd"
      },
      "execution_count": 27,
      "outputs": [
        {
          "output_type": "execute_result",
          "data": {
            "text/plain": [
              "  letters  numbers\n",
              "0       A        1\n",
              "1       B        2"
            ],
            "text/html": [
              "\n",
              "  <div id=\"df-2638e8e2-f293-41dd-b2b5-126a6282c18b\">\n",
              "    <div class=\"colab-df-container\">\n",
              "      <div>\n",
              "<style scoped>\n",
              "    .dataframe tbody tr th:only-of-type {\n",
              "        vertical-align: middle;\n",
              "    }\n",
              "\n",
              "    .dataframe tbody tr th {\n",
              "        vertical-align: top;\n",
              "    }\n",
              "\n",
              "    .dataframe thead th {\n",
              "        text-align: right;\n",
              "    }\n",
              "</style>\n",
              "<table border=\"1\" class=\"dataframe\">\n",
              "  <thead>\n",
              "    <tr style=\"text-align: right;\">\n",
              "      <th></th>\n",
              "      <th>letters</th>\n",
              "      <th>numbers</th>\n",
              "    </tr>\n",
              "  </thead>\n",
              "  <tbody>\n",
              "    <tr>\n",
              "      <th>0</th>\n",
              "      <td>A</td>\n",
              "      <td>1</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>1</th>\n",
              "      <td>B</td>\n",
              "      <td>2</td>\n",
              "    </tr>\n",
              "  </tbody>\n",
              "</table>\n",
              "</div>\n",
              "      <button class=\"colab-df-convert\" onclick=\"convertToInteractive('df-2638e8e2-f293-41dd-b2b5-126a6282c18b')\"\n",
              "              title=\"Convert this dataframe to an interactive table.\"\n",
              "              style=\"display:none;\">\n",
              "        \n",
              "  <svg xmlns=\"http://www.w3.org/2000/svg\" height=\"24px\"viewBox=\"0 0 24 24\"\n",
              "       width=\"24px\">\n",
              "    <path d=\"M0 0h24v24H0V0z\" fill=\"none\"/>\n",
              "    <path d=\"M18.56 5.44l.94 2.06.94-2.06 2.06-.94-2.06-.94-.94-2.06-.94 2.06-2.06.94zm-11 1L8.5 8.5l.94-2.06 2.06-.94-2.06-.94L8.5 2.5l-.94 2.06-2.06.94zm10 10l.94 2.06.94-2.06 2.06-.94-2.06-.94-.94-2.06-.94 2.06-2.06.94z\"/><path d=\"M17.41 7.96l-1.37-1.37c-.4-.4-.92-.59-1.43-.59-.52 0-1.04.2-1.43.59L10.3 9.45l-7.72 7.72c-.78.78-.78 2.05 0 2.83L4 21.41c.39.39.9.59 1.41.59.51 0 1.02-.2 1.41-.59l7.78-7.78 2.81-2.81c.8-.78.8-2.07 0-2.86zM5.41 20L4 18.59l7.72-7.72 1.47 1.35L5.41 20z\"/>\n",
              "  </svg>\n",
              "      </button>\n",
              "      \n",
              "  <style>\n",
              "    .colab-df-container {\n",
              "      display:flex;\n",
              "      flex-wrap:wrap;\n",
              "      gap: 12px;\n",
              "    }\n",
              "\n",
              "    .colab-df-convert {\n",
              "      background-color: #E8F0FE;\n",
              "      border: none;\n",
              "      border-radius: 50%;\n",
              "      cursor: pointer;\n",
              "      display: none;\n",
              "      fill: #1967D2;\n",
              "      height: 32px;\n",
              "      padding: 0 0 0 0;\n",
              "      width: 32px;\n",
              "    }\n",
              "\n",
              "    .colab-df-convert:hover {\n",
              "      background-color: #E2EBFA;\n",
              "      box-shadow: 0px 1px 2px rgba(60, 64, 67, 0.3), 0px 1px 3px 1px rgba(60, 64, 67, 0.15);\n",
              "      fill: #174EA6;\n",
              "    }\n",
              "\n",
              "    [theme=dark] .colab-df-convert {\n",
              "      background-color: #3B4455;\n",
              "      fill: #D2E3FC;\n",
              "    }\n",
              "\n",
              "    [theme=dark] .colab-df-convert:hover {\n",
              "      background-color: #434B5C;\n",
              "      box-shadow: 0px 1px 3px 1px rgba(0, 0, 0, 0.15);\n",
              "      filter: drop-shadow(0px 1px 2px rgba(0, 0, 0, 0.3));\n",
              "      fill: #FFFFFF;\n",
              "    }\n",
              "  </style>\n",
              "\n",
              "      <script>\n",
              "        const buttonEl =\n",
              "          document.querySelector('#df-2638e8e2-f293-41dd-b2b5-126a6282c18b button.colab-df-convert');\n",
              "        buttonEl.style.display =\n",
              "          google.colab.kernel.accessAllowed ? 'block' : 'none';\n",
              "\n",
              "        async function convertToInteractive(key) {\n",
              "          const element = document.querySelector('#df-2638e8e2-f293-41dd-b2b5-126a6282c18b');\n",
              "          const dataTable =\n",
              "            await google.colab.kernel.invokeFunction('convertToInteractive',\n",
              "                                                     [key], {});\n",
              "          if (!dataTable) return;\n",
              "\n",
              "          const docLinkHtml = 'Like what you see? Visit the ' +\n",
              "            '<a target=\"_blank\" href=https://colab.research.google.com/notebooks/data_table.ipynb>data table notebook</a>'\n",
              "            + ' to learn more about interactive tables.';\n",
              "          element.innerHTML = '';\n",
              "          dataTable['output_type'] = 'display_data';\n",
              "          await google.colab.output.renderOutput(dataTable, element);\n",
              "          const docLink = document.createElement('div');\n",
              "          docLink.innerHTML = docLinkHtml;\n",
              "          element.appendChild(docLink);\n",
              "        }\n",
              "      </script>\n",
              "    </div>\n",
              "  </div>\n",
              "  "
            ]
          },
          "metadata": {},
          "execution_count": 27
        }
      ]
    },
    {
      "cell_type": "markdown",
      "source": [
        "### Inconsistent data entry"
      ],
      "metadata": {
        "id": "SZ8P7-bwlOAY"
      }
    },
    {
      "cell_type": "code",
      "source": [
        "!kaggle datasets download -d alexisbcook/pakistan-intellectual-capital\n",
        "!unzip -qq pakistan-intellectual-capital.zip"
      ],
      "metadata": {
        "id": "J02NmTcQlGOi",
        "colab": {
          "base_uri": "https://localhost:8080/"
        },
        "outputId": "918ec2e6-9a14-40fd-9188-2fa0f7f391df"
      },
      "execution_count": null,
      "outputs": [
        {
          "output_type": "stream",
          "name": "stdout",
          "text": [
            "pakistan-intellectual-capital.zip: Skipping, found more recently modified local copy (use --force to force download)\n"
          ]
        }
      ]
    },
    {
      "cell_type": "code",
      "source": [
        "# read in all our data\n",
        "professors = pd.read_csv(\"pakistan_intellectual_capital.csv\")"
      ],
      "metadata": {
        "id": "Ci7-kF2floaV"
      },
      "execution_count": null,
      "outputs": []
    },
    {
      "cell_type": "code",
      "source": [
        "professors.head()"
      ],
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/",
          "height": 372
        },
        "id": "iidrZMSyqwSp",
        "outputId": "d30e0fd8-68cb-4a72-f93c-718994268524"
      },
      "execution_count": null,
      "outputs": [
        {
          "output_type": "execute_result",
          "data": {
            "text/plain": [
              "   Unnamed: 0  S#         Teacher Name  \\\n",
              "0           2   3      Dr. Abdul Basit   \n",
              "1           4   5      Dr. Waheed Noor   \n",
              "2           5   6     Dr. Junaid Baber   \n",
              "3           6   7  Dr. Maheen Bakhtyar   \n",
              "4          24  25          Samina Azim   \n",
              "\n",
              "            University Currently Teaching             Department  \\\n",
              "0               University of Balochistan  Computer Science & IT   \n",
              "1               University of Balochistan  Computer Science & IT   \n",
              "2               University of Balochistan  Computer Science & IT   \n",
              "3               University of Balochistan  Computer Science & IT   \n",
              "4  Sardar Bahadur Khan Women's University       Computer Science   \n",
              "\n",
              "  Province University Located          Designation Terminal Degree  \\\n",
              "0                 Balochistan  Assistant Professor             PhD   \n",
              "1                 Balochistan  Assistant Professor             PhD   \n",
              "2                 Balochistan  Assistant Professor             PhD   \n",
              "3                 Balochistan  Assistant Professor             PhD   \n",
              "4                 Balochistan             Lecturer              BS   \n",
              "\n",
              "                                      Graduated from   Country    Year  \\\n",
              "0                      Asian Institute of Technology  Thailand     NaN   \n",
              "1                      Asian Institute of Technology  Thailand     NaN   \n",
              "2                      Asian Institute of Technology  Thailand     NaN   \n",
              "3                      Asian Institute of Technology  Thailand     NaN   \n",
              "4  Balochistan University of Information Technolo...  Pakistan  2005.0   \n",
              "\n",
              "           Area of Specialization/Research Interests Other Information  \n",
              "0                        Software Engineering & DBMS               NaN  \n",
              "1                                               DBMS               NaN  \n",
              "2          Information processing, Multimedia mining               NaN  \n",
              "3  NLP, Information Retrieval, Question Answering...               NaN  \n",
              "4                      VLSI Electronics DLD Database               NaN  "
            ],
            "text/html": [
              "\n",
              "  <div id=\"df-5bbb042c-fbde-4a69-ae0e-53b7083627b2\">\n",
              "    <div class=\"colab-df-container\">\n",
              "      <div>\n",
              "<style scoped>\n",
              "    .dataframe tbody tr th:only-of-type {\n",
              "        vertical-align: middle;\n",
              "    }\n",
              "\n",
              "    .dataframe tbody tr th {\n",
              "        vertical-align: top;\n",
              "    }\n",
              "\n",
              "    .dataframe thead th {\n",
              "        text-align: right;\n",
              "    }\n",
              "</style>\n",
              "<table border=\"1\" class=\"dataframe\">\n",
              "  <thead>\n",
              "    <tr style=\"text-align: right;\">\n",
              "      <th></th>\n",
              "      <th>Unnamed: 0</th>\n",
              "      <th>S#</th>\n",
              "      <th>Teacher Name</th>\n",
              "      <th>University Currently Teaching</th>\n",
              "      <th>Department</th>\n",
              "      <th>Province University Located</th>\n",
              "      <th>Designation</th>\n",
              "      <th>Terminal Degree</th>\n",
              "      <th>Graduated from</th>\n",
              "      <th>Country</th>\n",
              "      <th>Year</th>\n",
              "      <th>Area of Specialization/Research Interests</th>\n",
              "      <th>Other Information</th>\n",
              "    </tr>\n",
              "  </thead>\n",
              "  <tbody>\n",
              "    <tr>\n",
              "      <th>0</th>\n",
              "      <td>2</td>\n",
              "      <td>3</td>\n",
              "      <td>Dr. Abdul Basit</td>\n",
              "      <td>University of Balochistan</td>\n",
              "      <td>Computer Science &amp; IT</td>\n",
              "      <td>Balochistan</td>\n",
              "      <td>Assistant Professor</td>\n",
              "      <td>PhD</td>\n",
              "      <td>Asian Institute of Technology</td>\n",
              "      <td>Thailand</td>\n",
              "      <td>NaN</td>\n",
              "      <td>Software Engineering &amp; DBMS</td>\n",
              "      <td>NaN</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>1</th>\n",
              "      <td>4</td>\n",
              "      <td>5</td>\n",
              "      <td>Dr. Waheed Noor</td>\n",
              "      <td>University of Balochistan</td>\n",
              "      <td>Computer Science &amp; IT</td>\n",
              "      <td>Balochistan</td>\n",
              "      <td>Assistant Professor</td>\n",
              "      <td>PhD</td>\n",
              "      <td>Asian Institute of Technology</td>\n",
              "      <td>Thailand</td>\n",
              "      <td>NaN</td>\n",
              "      <td>DBMS</td>\n",
              "      <td>NaN</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>2</th>\n",
              "      <td>5</td>\n",
              "      <td>6</td>\n",
              "      <td>Dr. Junaid Baber</td>\n",
              "      <td>University of Balochistan</td>\n",
              "      <td>Computer Science &amp; IT</td>\n",
              "      <td>Balochistan</td>\n",
              "      <td>Assistant Professor</td>\n",
              "      <td>PhD</td>\n",
              "      <td>Asian Institute of Technology</td>\n",
              "      <td>Thailand</td>\n",
              "      <td>NaN</td>\n",
              "      <td>Information processing, Multimedia mining</td>\n",
              "      <td>NaN</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>3</th>\n",
              "      <td>6</td>\n",
              "      <td>7</td>\n",
              "      <td>Dr. Maheen Bakhtyar</td>\n",
              "      <td>University of Balochistan</td>\n",
              "      <td>Computer Science &amp; IT</td>\n",
              "      <td>Balochistan</td>\n",
              "      <td>Assistant Professor</td>\n",
              "      <td>PhD</td>\n",
              "      <td>Asian Institute of Technology</td>\n",
              "      <td>Thailand</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NLP, Information Retrieval, Question Answering...</td>\n",
              "      <td>NaN</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>4</th>\n",
              "      <td>24</td>\n",
              "      <td>25</td>\n",
              "      <td>Samina Azim</td>\n",
              "      <td>Sardar Bahadur Khan Women's University</td>\n",
              "      <td>Computer Science</td>\n",
              "      <td>Balochistan</td>\n",
              "      <td>Lecturer</td>\n",
              "      <td>BS</td>\n",
              "      <td>Balochistan University of Information Technolo...</td>\n",
              "      <td>Pakistan</td>\n",
              "      <td>2005.0</td>\n",
              "      <td>VLSI Electronics DLD Database</td>\n",
              "      <td>NaN</td>\n",
              "    </tr>\n",
              "  </tbody>\n",
              "</table>\n",
              "</div>\n",
              "      <button class=\"colab-df-convert\" onclick=\"convertToInteractive('df-5bbb042c-fbde-4a69-ae0e-53b7083627b2')\"\n",
              "              title=\"Convert this dataframe to an interactive table.\"\n",
              "              style=\"display:none;\">\n",
              "        \n",
              "  <svg xmlns=\"http://www.w3.org/2000/svg\" height=\"24px\"viewBox=\"0 0 24 24\"\n",
              "       width=\"24px\">\n",
              "    <path d=\"M0 0h24v24H0V0z\" fill=\"none\"/>\n",
              "    <path d=\"M18.56 5.44l.94 2.06.94-2.06 2.06-.94-2.06-.94-.94-2.06-.94 2.06-2.06.94zm-11 1L8.5 8.5l.94-2.06 2.06-.94-2.06-.94L8.5 2.5l-.94 2.06-2.06.94zm10 10l.94 2.06.94-2.06 2.06-.94-2.06-.94-.94-2.06-.94 2.06-2.06.94z\"/><path d=\"M17.41 7.96l-1.37-1.37c-.4-.4-.92-.59-1.43-.59-.52 0-1.04.2-1.43.59L10.3 9.45l-7.72 7.72c-.78.78-.78 2.05 0 2.83L4 21.41c.39.39.9.59 1.41.59.51 0 1.02-.2 1.41-.59l7.78-7.78 2.81-2.81c.8-.78.8-2.07 0-2.86zM5.41 20L4 18.59l7.72-7.72 1.47 1.35L5.41 20z\"/>\n",
              "  </svg>\n",
              "      </button>\n",
              "      \n",
              "  <style>\n",
              "    .colab-df-container {\n",
              "      display:flex;\n",
              "      flex-wrap:wrap;\n",
              "      gap: 12px;\n",
              "    }\n",
              "\n",
              "    .colab-df-convert {\n",
              "      background-color: #E8F0FE;\n",
              "      border: none;\n",
              "      border-radius: 50%;\n",
              "      cursor: pointer;\n",
              "      display: none;\n",
              "      fill: #1967D2;\n",
              "      height: 32px;\n",
              "      padding: 0 0 0 0;\n",
              "      width: 32px;\n",
              "    }\n",
              "\n",
              "    .colab-df-convert:hover {\n",
              "      background-color: #E2EBFA;\n",
              "      box-shadow: 0px 1px 2px rgba(60, 64, 67, 0.3), 0px 1px 3px 1px rgba(60, 64, 67, 0.15);\n",
              "      fill: #174EA6;\n",
              "    }\n",
              "\n",
              "    [theme=dark] .colab-df-convert {\n",
              "      background-color: #3B4455;\n",
              "      fill: #D2E3FC;\n",
              "    }\n",
              "\n",
              "    [theme=dark] .colab-df-convert:hover {\n",
              "      background-color: #434B5C;\n",
              "      box-shadow: 0px 1px 3px 1px rgba(0, 0, 0, 0.15);\n",
              "      filter: drop-shadow(0px 1px 2px rgba(0, 0, 0, 0.3));\n",
              "      fill: #FFFFFF;\n",
              "    }\n",
              "  </style>\n",
              "\n",
              "      <script>\n",
              "        const buttonEl =\n",
              "          document.querySelector('#df-5bbb042c-fbde-4a69-ae0e-53b7083627b2 button.colab-df-convert');\n",
              "        buttonEl.style.display =\n",
              "          google.colab.kernel.accessAllowed ? 'block' : 'none';\n",
              "\n",
              "        async function convertToInteractive(key) {\n",
              "          const element = document.querySelector('#df-5bbb042c-fbde-4a69-ae0e-53b7083627b2');\n",
              "          const dataTable =\n",
              "            await google.colab.kernel.invokeFunction('convertToInteractive',\n",
              "                                                     [key], {});\n",
              "          if (!dataTable) return;\n",
              "\n",
              "          const docLinkHtml = 'Like what you see? Visit the ' +\n",
              "            '<a target=\"_blank\" href=https://colab.research.google.com/notebooks/data_table.ipynb>data table notebook</a>'\n",
              "            + ' to learn more about interactive tables.';\n",
              "          element.innerHTML = '';\n",
              "          dataTable['output_type'] = 'display_data';\n",
              "          await google.colab.output.renderOutput(dataTable, element);\n",
              "          const docLink = document.createElement('div');\n",
              "          docLink.innerHTML = docLinkHtml;\n",
              "          element.appendChild(docLink);\n",
              "        }\n",
              "      </script>\n",
              "    </div>\n",
              "  </div>\n",
              "  "
            ]
          },
          "metadata": {},
          "execution_count": 34
        }
      ]
    },
    {
      "cell_type": "markdown",
      "source": [
        "Say we're interested in cleaning up the \"Country\" column to make sure there's no data entry inconsistencies in it. We could go through and check each row by hand, of course, and hand-correct inconsistencies when we find them. There's a more efficient way to do this, though!"
      ],
      "metadata": {
        "id": "7bPJiliNqyeF"
      }
    },
    {
      "cell_type": "code",
      "source": [
        "# get all the unique values in the 'Country' column\n",
        "countries = professors['Country'].unique()\n",
        "\n",
        "# sort them alphabetically and then take a closer look\n",
        "countries.sort()\n",
        "countries"
      ],
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/"
        },
        "id": "sMLOjtJwq6Z5",
        "outputId": "7cf4394d-a1ae-4708-bd0a-77686b69b990"
      },
      "execution_count": null,
      "outputs": [
        {
          "output_type": "execute_result",
          "data": {
            "text/plain": [
              "array([' Germany', ' New Zealand', ' Sweden', ' USA', 'Australia',\n",
              "       'Austria', 'Canada', 'China', 'Finland', 'France', 'Greece',\n",
              "       'HongKong', 'Ireland', 'Italy', 'Japan', 'Macau', 'Malaysia',\n",
              "       'Mauritius', 'Netherland', 'New Zealand', 'Norway', 'Pakistan',\n",
              "       'Portugal', 'Russian Federation', 'Saudi Arabia', 'Scotland',\n",
              "       'Singapore', 'South Korea', 'SouthKorea', 'Spain', 'Sweden',\n",
              "       'Thailand', 'Turkey', 'UK', 'USA', 'USofA', 'Urbana', 'germany'],\n",
              "      dtype=object)"
            ]
          },
          "metadata": {},
          "execution_count": 35
        }
      ]
    },
    {
      "cell_type": "markdown",
      "source": [
        "Just looking at this, we can see some problems due to inconsistent data entry: ' Germany', and 'germany', for example, or ' New Zealand' and 'New Zealand'.\n",
        "\n",
        "The first thing we are going to do is make everything lower case (we can change it back at the end if we like) and remove any white spaces at the beginning and end of cells. **Inconsistencies in capitalizations and trailing white spaces are very common in text data and you can fix a good 80% of your text data entry inconsistencies by doing this.**"
      ],
      "metadata": {
        "id": "a4wJWw5Lq-cC"
      }
    },
    {
      "cell_type": "code",
      "source": [
        "# convert to lower case\n",
        "professors['Country'] = professors['Country'].str.lower()\n",
        "# remove trailing white spaces\n",
        "professors['Country'] = professors['Country'].str.strip()"
      ],
      "metadata": {
        "id": "Ua6m6A6RrJDD"
      },
      "execution_count": null,
      "outputs": []
    },
    {
      "cell_type": "markdown",
      "source": [
        "#### Use fuzzy matching to correct inconsistent data entry"
      ],
      "metadata": {
        "id": "XvrcoK9zrNH7"
      }
    },
    {
      "cell_type": "markdown",
      "source": [
        "Alright, let's take another look at the 'Country' column and see if there's any more data cleaning we need to do"
      ],
      "metadata": {
        "id": "kE9dClzCrT57"
      }
    },
    {
      "cell_type": "code",
      "source": [
        "# get all the unique values in the 'Country' column\n",
        "countries = professors['Country'].unique()\n",
        "\n",
        "# sort them alphabetically and then take a closer look\n",
        "countries.sort()\n",
        "countries"
      ],
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/"
        },
        "id": "kB4mYzRErRBp",
        "outputId": "df0b6365-d4c2-407d-c821-a41c16f01fa1"
      },
      "execution_count": null,
      "outputs": [
        {
          "output_type": "execute_result",
          "data": {
            "text/plain": [
              "array(['australia', 'austria', 'canada', 'china', 'finland', 'france',\n",
              "       'germany', 'greece', 'hongkong', 'ireland', 'italy', 'japan',\n",
              "       'macau', 'malaysia', 'mauritius', 'netherland', 'new zealand',\n",
              "       'norway', 'pakistan', 'portugal', 'russian federation',\n",
              "       'saudi arabia', 'scotland', 'singapore', 'south korea',\n",
              "       'southkorea', 'spain', 'sweden', 'thailand', 'turkey', 'uk',\n",
              "       'urbana', 'usa', 'usofa'], dtype=object)"
            ]
          },
          "metadata": {},
          "execution_count": 37
        }
      ]
    },
    {
      "cell_type": "markdown",
      "source": [
        "It does look like there is another inconsistency: 'southkorea' and 'south korea' should be the same. We're going to use the fuzzywuzzy package to help identify which strings are closest to each other. This dataset is small enough that we could probably correct errors by hand, but that approach doesn't scale well. (Would you want to correct a thousand errors by hand? What about ten thousand? Automating things as early as possible is generally a good idea!)\n",
        "\n",
        "thefuzz returns a ratio given two strings. The closer the ratio is to 100, the smaller the edit distance between the two strings. Here, we're going to get the ten strings from our list of cities that have the closest distance to \"\"south korea\""
      ],
      "metadata": {
        "id": "r-9t2G-urXqh"
      }
    },
    {
      "cell_type": "code",
      "source": [
        "# get the top 10 closest matches to \"south korea\"\n",
        "matches = process.extract(\"south korea\", countries, limit=10, scorer=fuzz.token_sort_ratio)\n",
        "\n",
        "# take a look at them\n",
        "matches"
      ],
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/"
        },
        "id": "E9zmZriTsJur",
        "outputId": "82933ff9-5497-4091-e90b-e26bff3a8fa7"
      },
      "execution_count": null,
      "outputs": [
        {
          "output_type": "execute_result",
          "data": {
            "text/plain": [
              "[('south korea', 100),\n",
              " ('southkorea', 48),\n",
              " ('saudi arabia', 43),\n",
              " ('norway', 35),\n",
              " ('ireland', 33),\n",
              " ('portugal', 32),\n",
              " ('singapore', 30),\n",
              " ('netherland', 29),\n",
              " ('macau', 25),\n",
              " ('usofa', 25)]"
            ]
          },
          "metadata": {},
          "execution_count": 38
        }
      ]
    },
    {
      "cell_type": "markdown",
      "source": [
        "We can see that two of the items in the cities are very close to \"south korea\": \"south korea\" and \"southkorea\". Let's replace all rows in our \"Country\" column that have a ratio of > 47 with \"south korea\".\n",
        "\n",
        "To do this, we are going to write a function."
      ],
      "metadata": {
        "id": "0c_asdKQsdtW"
      }
    },
    {
      "cell_type": "code",
      "source": [
        "# function to replace rows in the provided column of the provided dataframe\n",
        "# that match the provided string above the provided ratio with the provided string\n",
        "def replace_matches_in_column(df, column, string_to_match, min_ratio = 47):\n",
        "    # get a list of unique strings\n",
        "    strings = df[column].unique()\n",
        "    \n",
        "    # get the top 10 closest matches to our input string\n",
        "    matches = process.extract(string_to_match, strings, limit=10, scorer=fuzz.token_sort_ratio)\n",
        "\n",
        "    # only get matches with a ratio > 90\n",
        "    close_matches = [matches[0] for matches in matches if matches[1] >= min_ratio]\n",
        "\n",
        "    # get the rows of all the close matches in our dataframe\n",
        "    rows_with_matches = df[column].isin(close_matches)\n",
        "\n",
        "    # replace all rows with close matches with the input matches \n",
        "    df.loc[rows_with_matches, column] = string_to_match\n",
        "    \n",
        "    # let us know the function's done\n",
        "    print(\"All done!\")"
      ],
      "metadata": {
        "id": "vGNmSeH2sjBr"
      },
      "execution_count": null,
      "outputs": []
    },
    {
      "cell_type": "markdown",
      "source": [
        "Now that we have a function, we can put it to the test!"
      ],
      "metadata": {
        "id": "HvuBZyhdsmca"
      }
    },
    {
      "cell_type": "code",
      "source": [
        "# use the function we just wrote to replace close matches to \"south korea\" with \"south korea\"\n",
        "replace_matches_in_column(df=professors, column='Country', string_to_match=\"south korea\")"
      ],
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/"
        },
        "id": "-4jdi9Gesos0",
        "outputId": "81612c64-cffd-4a65-b4f8-18185219224f"
      },
      "execution_count": null,
      "outputs": [
        {
          "output_type": "stream",
          "name": "stdout",
          "text": [
            "All done!\n"
          ]
        }
      ]
    },
    {
      "cell_type": "markdown",
      "source": [
        "And now let's check the unique values in our \"Country\" column again and make sure we've tidied up \"south korea\" correctly."
      ],
      "metadata": {
        "id": "3b2h2I6Wsw8y"
      }
    },
    {
      "cell_type": "code",
      "source": [
        "# get all the unique values in the 'Country' column\n",
        "countries = professors['Country'].unique()\n",
        "\n",
        "# sort them alphabetically and then take a closer look\n",
        "countries.sort()\n",
        "countries"
      ],
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/"
        },
        "id": "KP6Q8EbEsx7a",
        "outputId": "51fa8f0d-21b1-4ab3-ddbf-e4bdb65bb3e8"
      },
      "execution_count": null,
      "outputs": [
        {
          "output_type": "execute_result",
          "data": {
            "text/plain": [
              "array(['australia', 'austria', 'canada', 'china', 'finland', 'france',\n",
              "       'germany', 'greece', 'hongkong', 'ireland', 'italy', 'japan',\n",
              "       'macau', 'malaysia', 'mauritius', 'netherland', 'new zealand',\n",
              "       'norway', 'pakistan', 'portugal', 'russian federation',\n",
              "       'saudi arabia', 'scotland', 'singapore', 'south korea', 'spain',\n",
              "       'sweden', 'thailand', 'turkey', 'uk', 'urbana', 'usa', 'usofa'],\n",
              "      dtype=object)"
            ]
          },
          "metadata": {},
          "execution_count": 43
        }
      ]
    },
    {
      "cell_type": "markdown",
      "source": [
        "Now we only have \"south korea\" in our dataframe and we didn't have to change anything by hand."
      ],
      "metadata": {
        "id": "dRbcksGAs80c"
      }
    },
    {
      "cell_type": "markdown",
      "source": [
        "### Character encoding"
      ],
      "metadata": {
        "id": "_NrXYMW8ljQK"
      }
    },
    {
      "cell_type": "markdown",
      "source": [
        "It was pretty hard to deal with encodings in Python 2, but thankfully in Python 3 it's a lot simpler. There are two main data types you'll encounter when working with text in Python 3. One is is the string, which is what text is by default."
      ],
      "metadata": {
        "id": "pdzhF2R_hqTZ"
      }
    },
    {
      "cell_type": "code",
      "source": [
        "# start with a string\n",
        "before = \"This is the euro symbol: €\"\n",
        "\n",
        "# check to see what datatype it is\n",
        "type(before)"
      ],
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/"
        },
        "id": "O-MTwIoSw_GD",
        "outputId": "fb13f0dc-ad65-4092-bd83-fcc0e1712db4"
      },
      "execution_count": null,
      "outputs": [
        {
          "output_type": "execute_result",
          "data": {
            "text/plain": [
              "str"
            ]
          },
          "metadata": {},
          "execution_count": 1
        }
      ]
    },
    {
      "cell_type": "markdown",
      "source": [
        "The other data is the [bytes](https://docs.python.org/3.1/library/functions.html#bytes) data type, which is a sequence of integers. You can convert a string into bytes by specifying which encoding it's in:"
      ],
      "metadata": {
        "id": "D3-nZLj-hyQQ"
      }
    },
    {
      "cell_type": "code",
      "source": [
        "# encode it to a different encoding, replacing characters that raise errors\n",
        "after = before.encode(\"utf-8\", errors=\"replace\")\n",
        "\n",
        "# check the type\n",
        "type(after)"
      ],
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/"
        },
        "id": "zeP9vKa_hvpH",
        "outputId": "5bd838bd-c6b4-48e3-9da8-3b4609111dec"
      },
      "execution_count": null,
      "outputs": [
        {
          "output_type": "execute_result",
          "data": {
            "text/plain": [
              "bytes"
            ]
          },
          "metadata": {},
          "execution_count": 2
        }
      ]
    },
    {
      "cell_type": "markdown",
      "source": [
        "If you look at a bytes object, you'll see that it has a b in front of it, and then maybe some text after. **That's because bytes are printed out as if they were characters encoded in ASCII**. (ASCII is an older character encoding that doesn't really work for writing any language other than English.) Here you can see that our euro symbol  has been replaced with some mojibake that looks like \"\\xe2\\x82\\xac\" when it's printed as if it were an ASCII string"
      ],
      "metadata": {
        "id": "AZUMXh0Ah6sv"
      }
    },
    {
      "cell_type": "code",
      "source": [
        "# take a look at what the bytes look like\n",
        "after"
      ],
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/"
        },
        "id": "nxcS_Ok-h4ND",
        "outputId": "fff13df0-0728-4158-c4be-d31590a8bbcc"
      },
      "execution_count": null,
      "outputs": [
        {
          "output_type": "execute_result",
          "data": {
            "text/plain": [
              "b'This is the euro symbol: \\xe2\\x82\\xac'"
            ]
          },
          "metadata": {},
          "execution_count": 3
        }
      ]
    },
    {
      "cell_type": "markdown",
      "source": [
        "When we convert our bytes back to a string with the correct encoding, we can see that our text is all there correctly, which is great! :)"
      ],
      "metadata": {
        "id": "JmDVeyiqiHuI"
      }
    },
    {
      "cell_type": "code",
      "source": [
        "# convert it back to utf-8\n",
        "print(after.decode(\"utf-8\"))"
      ],
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/"
        },
        "id": "BnylGfCMiEgM",
        "outputId": "5fcc9d14-bfd9-4e33-da8f-5f8da9e2286d"
      },
      "execution_count": null,
      "outputs": [
        {
          "output_type": "stream",
          "name": "stdout",
          "text": [
            "This is the euro symbol: €\n"
          ]
        }
      ]
    },
    {
      "cell_type": "markdown",
      "source": [
        "However, when we try to use a different encoding to map our bytes into a string, we get an error. This is because the encoding we're trying to use doesn't know what to do with the bytes we're trying to pass it. You need to tell Python the encoding that the byte string is actually supposed to be in"
      ],
      "metadata": {
        "id": "LpBpi8RriMxY"
      }
    },
    {
      "cell_type": "code",
      "source": [
        "# try to decode our bytes with the ascii encoding\n",
        "print(after.decode(\"ascii\"))"
      ],
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/"
        },
        "id": "IPNb51k6iKJN",
        "outputId": "9ad822b9-d279-4510-ffee-e3bdbe9ac0b1"
      },
      "execution_count": null,
      "outputs": [
        {
          "output_type": "error",
          "ename": "UnicodeDecodeError",
          "evalue": "ignored",
          "traceback": [
            "\u001b[0;31m---------------------------------------------------------------------------\u001b[0m",
            "\u001b[0;31mUnicodeDecodeError\u001b[0m                        Traceback (most recent call last)",
            "\u001b[0;32m<ipython-input-5-50fd8662e3ae>\u001b[0m in \u001b[0;36m<module>\u001b[0;34m()\u001b[0m\n\u001b[1;32m      1\u001b[0m \u001b[0;31m# try to decode our bytes with the ascii encoding\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[0;32m----> 2\u001b[0;31m \u001b[0mprint\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0mafter\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0mdecode\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0;34m\"ascii\"\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[0m",
            "\u001b[0;31mUnicodeDecodeError\u001b[0m: 'ascii' codec can't decode byte 0xe2 in position 25: ordinal not in range(128)"
          ]
        }
      ]
    },
    {
      "cell_type": "markdown",
      "source": [
        "We can also run into trouble if we try to use the wrong encoding to map from a string to bytes. Like we said earlier, strings are UTF-8 by default in Python 3, so if we try to treat them like they were in another encoding we'll create problems. \n",
        "\n",
        "For example, if we try to convert a string to bytes for ASCII using `encode()`, we can ask for the bytes to be what they would be if the text was in ASCII. Since our text isn't in ASCII, though, there will be some characters it can't handle. We can automatically replace the characters that ASCII can't handle. If we do that, however, **any characters not in ASCII will just be replaced with the unknown character.** Then, when we convert the bytes back to a string, the character will be replaced with the unknown character. The dangerous part about this is that there's not way to tell which character it *should* have been. That means we may have just made our data unusable!"
      ],
      "metadata": {
        "id": "fgsaAfggija4"
      }
    },
    {
      "cell_type": "code",
      "source": [
        "# start with a string\n",
        "before = \"This is the euro symbol: €\"\n",
        "\n",
        "# encode it to a different encoding, replacing characters that raise errors\n",
        "after = before.encode(\"ascii\", errors = \"replace\")\n",
        "\n",
        "# convert it back to utf-8\n",
        "print(after.decode(\"ascii\"))\n",
        "\n",
        "# We've lost the original underlying byte string! It's been \n",
        "# replaced with the underlying byte string for the unknown character :("
      ],
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/"
        },
        "id": "2NnrsGfUiYJH",
        "outputId": "7378c1df-30e0-4441-fed2-984501b8c5c7"
      },
      "execution_count": null,
      "outputs": [
        {
          "output_type": "stream",
          "name": "stdout",
          "text": [
            "This is the euro symbol: ?\n"
          ]
        }
      ]
    },
    {
      "cell_type": "markdown",
      "source": [
        "The best time to convert non UTF-8 input into UTF-8  is when you read in files, which we'll talk about next."
      ],
      "metadata": {
        "id": "4T7_FhI1jMm-"
      }
    },
    {
      "cell_type": "markdown",
      "source": [
        "### Reading in files with encoding problems"
      ],
      "metadata": {
        "id": "xLlyqhjtjOYo"
      }
    },
    {
      "cell_type": "markdown",
      "source": [
        "Most files you'll encounter will probably be encoded with UTF-8. This is what Python expects by default, so most of the time you won't run into problems. However, sometimes you'll get an error like this:"
      ],
      "metadata": {
        "id": "vIZnUmRMjSE3"
      }
    },
    {
      "cell_type": "code",
      "source": [
        "!kaggle datasets download -d kemical/kickstarter-projects\n",
        "!unzip -qq kickstarter-projects.zip"
      ],
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/"
        },
        "id": "2n3tzsI5jorg",
        "outputId": "8391a9be-f920-4583-c76c-91f2ab256394"
      },
      "execution_count": null,
      "outputs": [
        {
          "output_type": "stream",
          "name": "stdout",
          "text": [
            "kickstarter-projects.zip: Skipping, found more recently modified local copy (use --force to force download)\n"
          ]
        }
      ]
    },
    {
      "cell_type": "code",
      "source": [
        "# try to read in a file not in UTF-8\n",
        "kickstarter_2016 = pd.read_csv(\"ks-projects-201612.csv\")"
      ],
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/"
        },
        "id": "HY-n-wlYjN5n",
        "outputId": "74489ed7-284d-484f-ab4f-c91ca01aacb8"
      },
      "execution_count": null,
      "outputs": [
        {
          "output_type": "error",
          "ename": "UnicodeDecodeError",
          "evalue": "ignored",
          "traceback": [
            "\u001b[0;31m---------------------------------------------------------------------------\u001b[0m",
            "\u001b[0;31mUnicodeDecodeError\u001b[0m                        Traceback (most recent call last)",
            "\u001b[0;32m<ipython-input-15-a2be979c1d48>\u001b[0m in \u001b[0;36m<module>\u001b[0;34m()\u001b[0m\n\u001b[1;32m      1\u001b[0m \u001b[0;31m# try to read in a file not in UTF-8\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[0;32m----> 2\u001b[0;31m \u001b[0mkickstarter_2016\u001b[0m \u001b[0;34m=\u001b[0m \u001b[0mpd\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0mread_csv\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0;34m\"ks-projects-201612.csv\"\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[0m",
            "\u001b[0;32m/usr/local/lib/python3.7/dist-packages/pandas/util/_decorators.py\u001b[0m in \u001b[0;36mwrapper\u001b[0;34m(*args, **kwargs)\u001b[0m\n\u001b[1;32m    309\u001b[0m                     \u001b[0mstacklevel\u001b[0m\u001b[0;34m=\u001b[0m\u001b[0mstacklevel\u001b[0m\u001b[0;34m,\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m    310\u001b[0m                 )\n\u001b[0;32m--> 311\u001b[0;31m             \u001b[0;32mreturn\u001b[0m \u001b[0mfunc\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0;34m*\u001b[0m\u001b[0margs\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0;34m**\u001b[0m\u001b[0mkwargs\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[0m\u001b[1;32m    312\u001b[0m \u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m    313\u001b[0m         \u001b[0;32mreturn\u001b[0m \u001b[0mwrapper\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n",
            "\u001b[0;32m/usr/local/lib/python3.7/dist-packages/pandas/io/parsers/readers.py\u001b[0m in \u001b[0;36mread_csv\u001b[0;34m(filepath_or_buffer, sep, delimiter, header, names, index_col, usecols, squeeze, prefix, mangle_dupe_cols, dtype, engine, converters, true_values, false_values, skipinitialspace, skiprows, skipfooter, nrows, na_values, keep_default_na, na_filter, verbose, skip_blank_lines, parse_dates, infer_datetime_format, keep_date_col, date_parser, dayfirst, cache_dates, iterator, chunksize, compression, thousands, decimal, lineterminator, quotechar, quoting, doublequote, escapechar, comment, encoding, encoding_errors, dialect, error_bad_lines, warn_bad_lines, on_bad_lines, delim_whitespace, low_memory, memory_map, float_precision, storage_options)\u001b[0m\n\u001b[1;32m    584\u001b[0m     \u001b[0mkwds\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0mupdate\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0mkwds_defaults\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m    585\u001b[0m \u001b[0;34m\u001b[0m\u001b[0m\n\u001b[0;32m--> 586\u001b[0;31m     \u001b[0;32mreturn\u001b[0m \u001b[0m_read\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0mfilepath_or_buffer\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0mkwds\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[0m\u001b[1;32m    587\u001b[0m \u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m    588\u001b[0m \u001b[0;34m\u001b[0m\u001b[0m\n",
            "\u001b[0;32m/usr/local/lib/python3.7/dist-packages/pandas/io/parsers/readers.py\u001b[0m in \u001b[0;36m_read\u001b[0;34m(filepath_or_buffer, kwds)\u001b[0m\n\u001b[1;32m    480\u001b[0m \u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m    481\u001b[0m     \u001b[0;31m# Create the parser.\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[0;32m--> 482\u001b[0;31m     \u001b[0mparser\u001b[0m \u001b[0;34m=\u001b[0m \u001b[0mTextFileReader\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0mfilepath_or_buffer\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0;34m**\u001b[0m\u001b[0mkwds\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[0m\u001b[1;32m    483\u001b[0m \u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m    484\u001b[0m     \u001b[0;32mif\u001b[0m \u001b[0mchunksize\u001b[0m \u001b[0;32mor\u001b[0m \u001b[0miterator\u001b[0m\u001b[0;34m:\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n",
            "\u001b[0;32m/usr/local/lib/python3.7/dist-packages/pandas/io/parsers/readers.py\u001b[0m in \u001b[0;36m__init__\u001b[0;34m(self, f, engine, **kwds)\u001b[0m\n\u001b[1;32m    809\u001b[0m             \u001b[0mself\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0moptions\u001b[0m\u001b[0;34m[\u001b[0m\u001b[0;34m\"has_index_names\"\u001b[0m\u001b[0;34m]\u001b[0m \u001b[0;34m=\u001b[0m \u001b[0mkwds\u001b[0m\u001b[0;34m[\u001b[0m\u001b[0;34m\"has_index_names\"\u001b[0m\u001b[0;34m]\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m    810\u001b[0m \u001b[0;34m\u001b[0m\u001b[0m\n\u001b[0;32m--> 811\u001b[0;31m         \u001b[0mself\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0m_engine\u001b[0m \u001b[0;34m=\u001b[0m \u001b[0mself\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0m_make_engine\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0mself\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0mengine\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[0m\u001b[1;32m    812\u001b[0m \u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m    813\u001b[0m     \u001b[0;32mdef\u001b[0m \u001b[0mclose\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0mself\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m:\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n",
            "\u001b[0;32m/usr/local/lib/python3.7/dist-packages/pandas/io/parsers/readers.py\u001b[0m in \u001b[0;36m_make_engine\u001b[0;34m(self, engine)\u001b[0m\n\u001b[1;32m   1038\u001b[0m             )\n\u001b[1;32m   1039\u001b[0m         \u001b[0;31m# error: Too many arguments for \"ParserBase\"\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[0;32m-> 1040\u001b[0;31m         \u001b[0;32mreturn\u001b[0m \u001b[0mmapping\u001b[0m\u001b[0;34m[\u001b[0m\u001b[0mengine\u001b[0m\u001b[0;34m]\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0mself\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0mf\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0;34m**\u001b[0m\u001b[0mself\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0moptions\u001b[0m\u001b[0;34m)\u001b[0m  \u001b[0;31m# type: ignore[call-arg]\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[0m\u001b[1;32m   1041\u001b[0m \u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m   1042\u001b[0m     \u001b[0;32mdef\u001b[0m \u001b[0m_failover_to_python\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0mself\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m:\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n",
            "\u001b[0;32m/usr/local/lib/python3.7/dist-packages/pandas/io/parsers/c_parser_wrapper.py\u001b[0m in \u001b[0;36m__init__\u001b[0;34m(self, src, **kwds)\u001b[0m\n\u001b[1;32m     67\u001b[0m         \u001b[0mkwds\u001b[0m\u001b[0;34m[\u001b[0m\u001b[0;34m\"dtype\"\u001b[0m\u001b[0;34m]\u001b[0m \u001b[0;34m=\u001b[0m \u001b[0mensure_dtype_objs\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0mkwds\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0mget\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0;34m\"dtype\"\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0;32mNone\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m     68\u001b[0m         \u001b[0;32mtry\u001b[0m\u001b[0;34m:\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[0;32m---> 69\u001b[0;31m             \u001b[0mself\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0m_reader\u001b[0m \u001b[0;34m=\u001b[0m \u001b[0mparsers\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0mTextReader\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0mself\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0mhandles\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0mhandle\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0;34m**\u001b[0m\u001b[0mkwds\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[0m\u001b[1;32m     70\u001b[0m         \u001b[0;32mexcept\u001b[0m \u001b[0mException\u001b[0m\u001b[0;34m:\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m     71\u001b[0m             \u001b[0mself\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0mhandles\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0mclose\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n",
            "\u001b[0;32m/usr/local/lib/python3.7/dist-packages/pandas/_libs/parsers.pyx\u001b[0m in \u001b[0;36mpandas._libs.parsers.TextReader.__cinit__\u001b[0;34m()\u001b[0m\n",
            "\u001b[0;32m/usr/local/lib/python3.7/dist-packages/pandas/_libs/parsers.pyx\u001b[0m in \u001b[0;36mpandas._libs.parsers.TextReader._get_header\u001b[0;34m()\u001b[0m\n",
            "\u001b[0;32m/usr/local/lib/python3.7/dist-packages/pandas/_libs/parsers.pyx\u001b[0m in \u001b[0;36mpandas._libs.parsers.TextReader._tokenize_rows\u001b[0;34m()\u001b[0m\n",
            "\u001b[0;32m/usr/local/lib/python3.7/dist-packages/pandas/_libs/parsers.pyx\u001b[0m in \u001b[0;36mpandas._libs.parsers.raise_parser_error\u001b[0;34m()\u001b[0m\n",
            "\u001b[0;31mUnicodeDecodeError\u001b[0m: 'utf-8' codec can't decode byte 0x99 in position 7955: invalid start byte"
          ]
        }
      ]
    },
    {
      "cell_type": "markdown",
      "source": [
        "Notice that we get the same `UnicodeDecodeError` we got when we tried to decode UTF-8 bytes as if they were ASCII! **This tells us that this file isn't actually UTF-8**. We don't know what encoding it actually *is* though. One way to figure it out is to try and test a bunch of different character encodings and see if any of them work. A better way, though, is to use the chardet module to try and automatically guess what the right encoding is. It's not 100% guaranteed to be right, but it's usually faster than just trying to guess.\n",
        "\n",
        "We are going to just look at the first ten thousand bytes of this file. This is usually enough for a good guess about what the encoding is and is much faster than trying to look at the whole file. (Especially with a  large file this can be very slow.)"
      ],
      "metadata": {
        "id": "SrChdNiOj_yK"
      }
    },
    {
      "cell_type": "code",
      "source": [
        "# look at the first ten thousand bytes to guess the character encoding\n",
        "with open(\"ks-projects-201612.csv\", 'rb') as rawdata:\n",
        "    result = chardet.detect(rawdata.read(10000))\n",
        "\n",
        "# check what the character encoding might be\n",
        "print(result)"
      ],
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/"
        },
        "id": "iYU6coz4i75j",
        "outputId": "952b8393-a846-44aa-fb2b-498c70d04869"
      },
      "execution_count": null,
      "outputs": [
        {
          "output_type": "stream",
          "name": "stdout",
          "text": [
            "{'encoding': 'Windows-1252', 'confidence': 0.73, 'language': ''}\n"
          ]
        }
      ]
    },
    {
      "cell_type": "markdown",
      "source": [
        "So chardet is 73%  confidence that the right encoding is \"Windows-1252\". Let's see if that's correct:"
      ],
      "metadata": {
        "id": "igRez5z1kwxf"
      }
    },
    {
      "cell_type": "code",
      "source": [
        "# read in the file with the encoding detected by chardet\n",
        "kickstarter_2016 = pd.read_csv(\"ks-projects-201612.csv\", encoding='Windows-1252')\n",
        "\n",
        "# look at the first few lines\n",
        "kickstarter_2016.head()"
      ],
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/"
        },
        "id": "qS7o_H1oktRf",
        "outputId": "8426fcc3-2ea5-4ffa-c7ec-23e89db3d7af"
      },
      "execution_count": null,
      "outputs": [
        {
          "output_type": "stream",
          "name": "stderr",
          "text": [
            "/usr/local/lib/python3.7/dist-packages/IPython/core/interactiveshell.py:2882: DtypeWarning: Columns (13,14,15) have mixed types.Specify dtype option on import or set low_memory=False.\n",
            "  exec(code_obj, self.user_global_ns, self.user_ns)\n"
          ]
        },
        {
          "output_type": "execute_result",
          "data": {
            "text/plain": [
              "          ID                                               name   \\\n",
              "0  1000002330                    The Songs of Adelaide & Abullah   \n",
              "1  1000004038                                     Where is Hank?   \n",
              "2  1000007540  ToshiCapital Rekordz Needs Help to Complete Album   \n",
              "3  1000011046  Community Film Project: The Art of Neighborhoo...   \n",
              "4  1000014025                               Monarch Espresso Bar   \n",
              "\n",
              "        category  main_category  currency             deadline   goal   \\\n",
              "0          Poetry     Publishing       GBP  2015-10-09 11:36:00   1000   \n",
              "1  Narrative Film   Film & Video       USD  2013-02-26 00:20:50  45000   \n",
              "2           Music          Music       USD  2012-04-16 04:24:11   5000   \n",
              "3    Film & Video   Film & Video       USD  2015-08-29 01:00:00  19500   \n",
              "4     Restaurants           Food       USD  2016-04-01 13:38:27  50000   \n",
              "\n",
              "             launched  pledged       state  backers  country  usd pledged   \\\n",
              "0  2015-08-11 12:12:28        0      failed        0       GB            0   \n",
              "1  2013-01-12 00:20:50      220      failed        3       US          220   \n",
              "2  2012-03-17 03:24:11        1      failed        1       US            1   \n",
              "3  2015-07-04 08:35:03     1283    canceled       14       US         1283   \n",
              "4  2016-02-26 13:38:27    52375  successful      224       US        52375   \n",
              "\n",
              "  Unnamed: 13 Unnamed: 14 Unnamed: 15  Unnamed: 16  \n",
              "0         NaN         NaN         NaN          NaN  \n",
              "1         NaN         NaN         NaN          NaN  \n",
              "2         NaN         NaN         NaN          NaN  \n",
              "3         NaN         NaN         NaN          NaN  \n",
              "4         NaN         NaN         NaN          NaN  "
            ],
            "text/html": [
              "\n",
              "  <div id=\"df-ec241a44-693b-4fa1-ac52-68983907fea3\">\n",
              "    <div class=\"colab-df-container\">\n",
              "      <div>\n",
              "<style scoped>\n",
              "    .dataframe tbody tr th:only-of-type {\n",
              "        vertical-align: middle;\n",
              "    }\n",
              "\n",
              "    .dataframe tbody tr th {\n",
              "        vertical-align: top;\n",
              "    }\n",
              "\n",
              "    .dataframe thead th {\n",
              "        text-align: right;\n",
              "    }\n",
              "</style>\n",
              "<table border=\"1\" class=\"dataframe\">\n",
              "  <thead>\n",
              "    <tr style=\"text-align: right;\">\n",
              "      <th></th>\n",
              "      <th>ID</th>\n",
              "      <th>name</th>\n",
              "      <th>category</th>\n",
              "      <th>main_category</th>\n",
              "      <th>currency</th>\n",
              "      <th>deadline</th>\n",
              "      <th>goal</th>\n",
              "      <th>launched</th>\n",
              "      <th>pledged</th>\n",
              "      <th>state</th>\n",
              "      <th>backers</th>\n",
              "      <th>country</th>\n",
              "      <th>usd pledged</th>\n",
              "      <th>Unnamed: 13</th>\n",
              "      <th>Unnamed: 14</th>\n",
              "      <th>Unnamed: 15</th>\n",
              "      <th>Unnamed: 16</th>\n",
              "    </tr>\n",
              "  </thead>\n",
              "  <tbody>\n",
              "    <tr>\n",
              "      <th>0</th>\n",
              "      <td>1000002330</td>\n",
              "      <td>The Songs of Adelaide &amp; Abullah</td>\n",
              "      <td>Poetry</td>\n",
              "      <td>Publishing</td>\n",
              "      <td>GBP</td>\n",
              "      <td>2015-10-09 11:36:00</td>\n",
              "      <td>1000</td>\n",
              "      <td>2015-08-11 12:12:28</td>\n",
              "      <td>0</td>\n",
              "      <td>failed</td>\n",
              "      <td>0</td>\n",
              "      <td>GB</td>\n",
              "      <td>0</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>1</th>\n",
              "      <td>1000004038</td>\n",
              "      <td>Where is Hank?</td>\n",
              "      <td>Narrative Film</td>\n",
              "      <td>Film &amp; Video</td>\n",
              "      <td>USD</td>\n",
              "      <td>2013-02-26 00:20:50</td>\n",
              "      <td>45000</td>\n",
              "      <td>2013-01-12 00:20:50</td>\n",
              "      <td>220</td>\n",
              "      <td>failed</td>\n",
              "      <td>3</td>\n",
              "      <td>US</td>\n",
              "      <td>220</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>2</th>\n",
              "      <td>1000007540</td>\n",
              "      <td>ToshiCapital Rekordz Needs Help to Complete Album</td>\n",
              "      <td>Music</td>\n",
              "      <td>Music</td>\n",
              "      <td>USD</td>\n",
              "      <td>2012-04-16 04:24:11</td>\n",
              "      <td>5000</td>\n",
              "      <td>2012-03-17 03:24:11</td>\n",
              "      <td>1</td>\n",
              "      <td>failed</td>\n",
              "      <td>1</td>\n",
              "      <td>US</td>\n",
              "      <td>1</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>3</th>\n",
              "      <td>1000011046</td>\n",
              "      <td>Community Film Project: The Art of Neighborhoo...</td>\n",
              "      <td>Film &amp; Video</td>\n",
              "      <td>Film &amp; Video</td>\n",
              "      <td>USD</td>\n",
              "      <td>2015-08-29 01:00:00</td>\n",
              "      <td>19500</td>\n",
              "      <td>2015-07-04 08:35:03</td>\n",
              "      <td>1283</td>\n",
              "      <td>canceled</td>\n",
              "      <td>14</td>\n",
              "      <td>US</td>\n",
              "      <td>1283</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>4</th>\n",
              "      <td>1000014025</td>\n",
              "      <td>Monarch Espresso Bar</td>\n",
              "      <td>Restaurants</td>\n",
              "      <td>Food</td>\n",
              "      <td>USD</td>\n",
              "      <td>2016-04-01 13:38:27</td>\n",
              "      <td>50000</td>\n",
              "      <td>2016-02-26 13:38:27</td>\n",
              "      <td>52375</td>\n",
              "      <td>successful</td>\n",
              "      <td>224</td>\n",
              "      <td>US</td>\n",
              "      <td>52375</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "      <td>NaN</td>\n",
              "    </tr>\n",
              "  </tbody>\n",
              "</table>\n",
              "</div>\n",
              "      <button class=\"colab-df-convert\" onclick=\"convertToInteractive('df-ec241a44-693b-4fa1-ac52-68983907fea3')\"\n",
              "              title=\"Convert this dataframe to an interactive table.\"\n",
              "              style=\"display:none;\">\n",
              "        \n",
              "  <svg xmlns=\"http://www.w3.org/2000/svg\" height=\"24px\"viewBox=\"0 0 24 24\"\n",
              "       width=\"24px\">\n",
              "    <path d=\"M0 0h24v24H0V0z\" fill=\"none\"/>\n",
              "    <path d=\"M18.56 5.44l.94 2.06.94-2.06 2.06-.94-2.06-.94-.94-2.06-.94 2.06-2.06.94zm-11 1L8.5 8.5l.94-2.06 2.06-.94-2.06-.94L8.5 2.5l-.94 2.06-2.06.94zm10 10l.94 2.06.94-2.06 2.06-.94-2.06-.94-.94-2.06-.94 2.06-2.06.94z\"/><path d=\"M17.41 7.96l-1.37-1.37c-.4-.4-.92-.59-1.43-.59-.52 0-1.04.2-1.43.59L10.3 9.45l-7.72 7.72c-.78.78-.78 2.05 0 2.83L4 21.41c.39.39.9.59 1.41.59.51 0 1.02-.2 1.41-.59l7.78-7.78 2.81-2.81c.8-.78.8-2.07 0-2.86zM5.41 20L4 18.59l7.72-7.72 1.47 1.35L5.41 20z\"/>\n",
              "  </svg>\n",
              "      </button>\n",
              "      \n",
              "  <style>\n",
              "    .colab-df-container {\n",
              "      display:flex;\n",
              "      flex-wrap:wrap;\n",
              "      gap: 12px;\n",
              "    }\n",
              "\n",
              "    .colab-df-convert {\n",
              "      background-color: #E8F0FE;\n",
              "      border: none;\n",
              "      border-radius: 50%;\n",
              "      cursor: pointer;\n",
              "      display: none;\n",
              "      fill: #1967D2;\n",
              "      height: 32px;\n",
              "      padding: 0 0 0 0;\n",
              "      width: 32px;\n",
              "    }\n",
              "\n",
              "    .colab-df-convert:hover {\n",
              "      background-color: #E2EBFA;\n",
              "      box-shadow: 0px 1px 2px rgba(60, 64, 67, 0.3), 0px 1px 3px 1px rgba(60, 64, 67, 0.15);\n",
              "      fill: #174EA6;\n",
              "    }\n",
              "\n",
              "    [theme=dark] .colab-df-convert {\n",
              "      background-color: #3B4455;\n",
              "      fill: #D2E3FC;\n",
              "    }\n",
              "\n",
              "    [theme=dark] .colab-df-convert:hover {\n",
              "      background-color: #434B5C;\n",
              "      box-shadow: 0px 1px 3px 1px rgba(0, 0, 0, 0.15);\n",
              "      filter: drop-shadow(0px 1px 2px rgba(0, 0, 0, 0.3));\n",
              "      fill: #FFFFFF;\n",
              "    }\n",
              "  </style>\n",
              "\n",
              "      <script>\n",
              "        const buttonEl =\n",
              "          document.querySelector('#df-ec241a44-693b-4fa1-ac52-68983907fea3 button.colab-df-convert');\n",
              "        buttonEl.style.display =\n",
              "          google.colab.kernel.accessAllowed ? 'block' : 'none';\n",
              "\n",
              "        async function convertToInteractive(key) {\n",
              "          const element = document.querySelector('#df-ec241a44-693b-4fa1-ac52-68983907fea3');\n",
              "          const dataTable =\n",
              "            await google.colab.kernel.invokeFunction('convertToInteractive',\n",
              "                                                     [key], {});\n",
              "          if (!dataTable) return;\n",
              "\n",
              "          const docLinkHtml = 'Like what you see? Visit the ' +\n",
              "            '<a target=\"_blank\" href=https://colab.research.google.com/notebooks/data_table.ipynb>data table notebook</a>'\n",
              "            + ' to learn more about interactive tables.';\n",
              "          element.innerHTML = '';\n",
              "          dataTable['output_type'] = 'display_data';\n",
              "          await google.colab.output.renderOutput(dataTable, element);\n",
              "          const docLink = document.createElement('div');\n",
              "          docLink.innerHTML = docLinkHtml;\n",
              "          element.appendChild(docLink);\n",
              "        }\n",
              "      </script>\n",
              "    </div>\n",
              "  </div>\n",
              "  "
            ]
          },
          "metadata": {},
          "execution_count": 21
        }
      ]
    },
    {
      "cell_type": "markdown",
      "source": [
        "Yep, looks like chardet was right! The file reads in with no problem (although we do get a warning about datatypes) and when we look at the first few rows it seems to be fine. \n",
        "\n",
        "What if the encoding chardet guesses isn't right? Since chardet is basically just a fancy guesser, sometimes it will guess the wrong encoding. **One thing you can try is looking at more or less of the file and seeing if you get a different result and then try that.**"
      ],
      "metadata": {
        "id": "CKn77TjEk4Zi"
      }
    },
    {
      "cell_type": "markdown",
      "source": [
        "### Saving your files with UTF-8 encoding\n"
      ],
      "metadata": {
        "id": "s15n6JwKlAzh"
      }
    },
    {
      "cell_type": "markdown",
      "source": [
        "Finally, once you've gone through all the trouble of getting your file into UTF-8, you'll probably want to keep it that way. The easiest way to do that is to save your files with UTF-8 encoding. The good news is, since UTF-8 is the standard encoding in Python, when you save a file it will be saved as UTF-8 by default:"
      ],
      "metadata": {
        "id": "oKHFqRrBlDZh"
      }
    },
    {
      "cell_type": "code",
      "source": [
        "# save our file (will be saved as UTF-8 by default!)\n",
        "kickstarter_2016.to_csv(\"ks-projects-201612-utf8.csv\")"
      ],
      "metadata": {
        "id": "Qx8jLsFvkyx-"
      },
      "execution_count": null,
      "outputs": []
    },
    {
      "cell_type": "markdown",
      "source": [
        "## Scaling and normalization"
      ],
      "metadata": {
        "id": "qG3ESWK0iEYp"
      }
    },
    {
      "cell_type": "markdown",
      "source": [
        "### Standardization"
      ],
      "metadata": {
        "id": "_BEuFwFmiVOI"
      }
    },
    {
      "cell_type": "markdown",
      "source": [
        "By scaling your variables, you can help compare different variables on equal footing. The preprocessing module provides the `StandardScaler` utility class, which is a quick and easy way to perform the following operation on an array-like dataset."
      ],
      "metadata": {
        "id": "D62vRfShirZH"
      }
    },
    {
      "cell_type": "code",
      "source": [
        "train = pd.read_csv('train_preprocessed.csv')\n",
        "train_x = train.drop(['target'], axis=1)\n",
        "train_y = train['target']\n",
        "test_x = pd.read_csv('test_preprocessed.csv')\n",
        "train_x_saved = train_x.copy()\n",
        "test_x_saved = test_x.copy()\n",
        "\n",
        "def load_data():\n",
        "    train_x, test_x = train_x_saved.copy(), test_x_saved.copy()\n",
        "    return train_x, test_x\n",
        "\n",
        "train"
      ],
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/",
          "height": 488
        },
        "id": "oCOuMkLuiUsd",
        "outputId": "9333eb7d-0271-44dd-904d-9f64336d5825"
      },
      "execution_count": 67,
      "outputs": [
        {
          "output_type": "execute_result",
          "data": {
            "text/plain": [
              "      age  sex      height     weight  product   amount  medical_info_a1  \\\n",
              "0      50    1  166.445608  65.016732        9  7000000              134   \n",
              "1      68    0  164.334615  56.544217        0  7000000              438   \n",
              "2      77    1  167.462917  54.242267        2  6000000              313   \n",
              "3      17    1  177.097725  71.147762        3  8000000              342   \n",
              "4      62    0  158.165788  65.240697        1  9000000              327   \n",
              "...   ...  ...         ...        ...      ...      ...              ...   \n",
              "9995   61    1  182.729800  73.393777        1  2000000              189   \n",
              "9996   33    0  167.701136  75.006529        8     9000              426   \n",
              "9997   44    0  145.609998  47.739397        8     1000              370   \n",
              "9998   34    0  165.796017  57.567695        6     5000              291   \n",
              "9999   31    1  180.301762  71.425135        4  1000000              288   \n",
              "\n",
              "      medical_info_a2  medical_info_a3  medical_info_b1  ...  \\\n",
              "0                 202                1               11  ...   \n",
              "1                 263                3               14  ...   \n",
              "2                 325                1               18  ...   \n",
              "3                 213                2               11  ...   \n",
              "4                 102                0               14  ...   \n",
              "...               ...              ...              ...  ...   \n",
              "9995              232                7               17  ...   \n",
              "9996              202                3               19  ...   \n",
              "9997              274                1               11  ...   \n",
              "9998              105                1               13  ...   \n",
              "9999              454                4               13  ...   \n",
              "\n",
              "      medical_keyword_6  medical_keyword_7  medical_keyword_8  \\\n",
              "0                     1                  0                  1   \n",
              "1                     0                  1                  1   \n",
              "2                     1                  0                  1   \n",
              "3                     0                  0                  1   \n",
              "4                     0                  1                  1   \n",
              "...                 ...                ...                ...   \n",
              "9995                  0                  0                  1   \n",
              "9996                  0                  0                  1   \n",
              "9997                  0                  0                  1   \n",
              "9998                  1                  1                  1   \n",
              "9999                  1                  0                  1   \n",
              "\n",
              "      medical_keyword_9  medical_keyword_10  year  month  day  yearmonth  \\\n",
              "0                     0                   0  2015      2    3      24182   \n",
              "1                     0                   0  2015      5    9      24185   \n",
              "2                     0                   0  2016      2   13      24194   \n",
              "3                     0                   0  2015      7    6      24187   \n",
              "4                     1                   0  2016      9   17      24201   \n",
              "...                 ...                 ...   ...    ...  ...        ...   \n",
              "9995                  1                   0  2015     10   21      24190   \n",
              "9996                  1                   0  2015      5   28      24185   \n",
              "9997                  0                   1  2016      2   29      24194   \n",
              "9998                  1                   0  2016      2   27      24194   \n",
              "9999                  0                   0  2015      7    1      24187   \n",
              "\n",
              "      target  \n",
              "0          0  \n",
              "1          0  \n",
              "2          1  \n",
              "3          0  \n",
              "4          1  \n",
              "...      ...  \n",
              "9995       0  \n",
              "9996       0  \n",
              "9997       0  \n",
              "9998       0  \n",
              "9999       0  \n",
              "\n",
              "[10000 rows x 29 columns]"
            ],
            "text/html": [
              "\n",
              "  <div id=\"df-27612114-5d57-46fe-ab60-0ff74e6ddfd2\">\n",
              "    <div class=\"colab-df-container\">\n",
              "      <div>\n",
              "<style scoped>\n",
              "    .dataframe tbody tr th:only-of-type {\n",
              "        vertical-align: middle;\n",
              "    }\n",
              "\n",
              "    .dataframe tbody tr th {\n",
              "        vertical-align: top;\n",
              "    }\n",
              "\n",
              "    .dataframe thead th {\n",
              "        text-align: right;\n",
              "    }\n",
              "</style>\n",
              "<table border=\"1\" class=\"dataframe\">\n",
              "  <thead>\n",
              "    <tr style=\"text-align: right;\">\n",
              "      <th></th>\n",
              "      <th>age</th>\n",
              "      <th>sex</th>\n",
              "      <th>height</th>\n",
              "      <th>weight</th>\n",
              "      <th>product</th>\n",
              "      <th>amount</th>\n",
              "      <th>medical_info_a1</th>\n",
              "      <th>medical_info_a2</th>\n",
              "      <th>medical_info_a3</th>\n",
              "      <th>medical_info_b1</th>\n",
              "      <th>...</th>\n",
              "      <th>medical_keyword_6</th>\n",
              "      <th>medical_keyword_7</th>\n",
              "      <th>medical_keyword_8</th>\n",
              "      <th>medical_keyword_9</th>\n",
              "      <th>medical_keyword_10</th>\n",
              "      <th>year</th>\n",
              "      <th>month</th>\n",
              "      <th>day</th>\n",
              "      <th>yearmonth</th>\n",
              "      <th>target</th>\n",
              "    </tr>\n",
              "  </thead>\n",
              "  <tbody>\n",
              "    <tr>\n",
              "      <th>0</th>\n",
              "      <td>50</td>\n",
              "      <td>1</td>\n",
              "      <td>166.445608</td>\n",
              "      <td>65.016732</td>\n",
              "      <td>9</td>\n",
              "      <td>7000000</td>\n",
              "      <td>134</td>\n",
              "      <td>202</td>\n",
              "      <td>1</td>\n",
              "      <td>11</td>\n",
              "      <td>...</td>\n",
              "      <td>1</td>\n",
              "      <td>0</td>\n",
              "      <td>1</td>\n",
              "      <td>0</td>\n",
              "      <td>0</td>\n",
              "      <td>2015</td>\n",
              "      <td>2</td>\n",
              "      <td>3</td>\n",
              "      <td>24182</td>\n",
              "      <td>0</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>1</th>\n",
              "      <td>68</td>\n",
              "      <td>0</td>\n",
              "      <td>164.334615</td>\n",
              "      <td>56.544217</td>\n",
              "      <td>0</td>\n",
              "      <td>7000000</td>\n",
              "      <td>438</td>\n",
              "      <td>263</td>\n",
              "      <td>3</td>\n",
              "      <td>14</td>\n",
              "      <td>...</td>\n",
              "      <td>0</td>\n",
              "      <td>1</td>\n",
              "      <td>1</td>\n",
              "      <td>0</td>\n",
              "      <td>0</td>\n",
              "      <td>2015</td>\n",
              "      <td>5</td>\n",
              "      <td>9</td>\n",
              "      <td>24185</td>\n",
              "      <td>0</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>2</th>\n",
              "      <td>77</td>\n",
              "      <td>1</td>\n",
              "      <td>167.462917</td>\n",
              "      <td>54.242267</td>\n",
              "      <td>2</td>\n",
              "      <td>6000000</td>\n",
              "      <td>313</td>\n",
              "      <td>325</td>\n",
              "      <td>1</td>\n",
              "      <td>18</td>\n",
              "      <td>...</td>\n",
              "      <td>1</td>\n",
              "      <td>0</td>\n",
              "      <td>1</td>\n",
              "      <td>0</td>\n",
              "      <td>0</td>\n",
              "      <td>2016</td>\n",
              "      <td>2</td>\n",
              "      <td>13</td>\n",
              "      <td>24194</td>\n",
              "      <td>1</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>3</th>\n",
              "      <td>17</td>\n",
              "      <td>1</td>\n",
              "      <td>177.097725</td>\n",
              "      <td>71.147762</td>\n",
              "      <td>3</td>\n",
              "      <td>8000000</td>\n",
              "      <td>342</td>\n",
              "      <td>213</td>\n",
              "      <td>2</td>\n",
              "      <td>11</td>\n",
              "      <td>...</td>\n",
              "      <td>0</td>\n",
              "      <td>0</td>\n",
              "      <td>1</td>\n",
              "      <td>0</td>\n",
              "      <td>0</td>\n",
              "      <td>2015</td>\n",
              "      <td>7</td>\n",
              "      <td>6</td>\n",
              "      <td>24187</td>\n",
              "      <td>0</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>4</th>\n",
              "      <td>62</td>\n",
              "      <td>0</td>\n",
              "      <td>158.165788</td>\n",
              "      <td>65.240697</td>\n",
              "      <td>1</td>\n",
              "      <td>9000000</td>\n",
              "      <td>327</td>\n",
              "      <td>102</td>\n",
              "      <td>0</td>\n",
              "      <td>14</td>\n",
              "      <td>...</td>\n",
              "      <td>0</td>\n",
              "      <td>1</td>\n",
              "      <td>1</td>\n",
              "      <td>1</td>\n",
              "      <td>0</td>\n",
              "      <td>2016</td>\n",
              "      <td>9</td>\n",
              "      <td>17</td>\n",
              "      <td>24201</td>\n",
              "      <td>1</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>...</th>\n",
              "      <td>...</td>\n",
              "      <td>...</td>\n",
              "      <td>...</td>\n",
              "      <td>...</td>\n",
              "      <td>...</td>\n",
              "      <td>...</td>\n",
              "      <td>...</td>\n",
              "      <td>...</td>\n",
              "      <td>...</td>\n",
              "      <td>...</td>\n",
              "      <td>...</td>\n",
              "      <td>...</td>\n",
              "      <td>...</td>\n",
              "      <td>...</td>\n",
              "      <td>...</td>\n",
              "      <td>...</td>\n",
              "      <td>...</td>\n",
              "      <td>...</td>\n",
              "      <td>...</td>\n",
              "      <td>...</td>\n",
              "      <td>...</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>9995</th>\n",
              "      <td>61</td>\n",
              "      <td>1</td>\n",
              "      <td>182.729800</td>\n",
              "      <td>73.393777</td>\n",
              "      <td>1</td>\n",
              "      <td>2000000</td>\n",
              "      <td>189</td>\n",
              "      <td>232</td>\n",
              "      <td>7</td>\n",
              "      <td>17</td>\n",
              "      <td>...</td>\n",
              "      <td>0</td>\n",
              "      <td>0</td>\n",
              "      <td>1</td>\n",
              "      <td>1</td>\n",
              "      <td>0</td>\n",
              "      <td>2015</td>\n",
              "      <td>10</td>\n",
              "      <td>21</td>\n",
              "      <td>24190</td>\n",
              "      <td>0</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>9996</th>\n",
              "      <td>33</td>\n",
              "      <td>0</td>\n",
              "      <td>167.701136</td>\n",
              "      <td>75.006529</td>\n",
              "      <td>8</td>\n",
              "      <td>9000</td>\n",
              "      <td>426</td>\n",
              "      <td>202</td>\n",
              "      <td>3</td>\n",
              "      <td>19</td>\n",
              "      <td>...</td>\n",
              "      <td>0</td>\n",
              "      <td>0</td>\n",
              "      <td>1</td>\n",
              "      <td>1</td>\n",
              "      <td>0</td>\n",
              "      <td>2015</td>\n",
              "      <td>5</td>\n",
              "      <td>28</td>\n",
              "      <td>24185</td>\n",
              "      <td>0</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>9997</th>\n",
              "      <td>44</td>\n",
              "      <td>0</td>\n",
              "      <td>145.609998</td>\n",
              "      <td>47.739397</td>\n",
              "      <td>8</td>\n",
              "      <td>1000</td>\n",
              "      <td>370</td>\n",
              "      <td>274</td>\n",
              "      <td>1</td>\n",
              "      <td>11</td>\n",
              "      <td>...</td>\n",
              "      <td>0</td>\n",
              "      <td>0</td>\n",
              "      <td>1</td>\n",
              "      <td>0</td>\n",
              "      <td>1</td>\n",
              "      <td>2016</td>\n",
              "      <td>2</td>\n",
              "      <td>29</td>\n",
              "      <td>24194</td>\n",
              "      <td>0</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>9998</th>\n",
              "      <td>34</td>\n",
              "      <td>0</td>\n",
              "      <td>165.796017</td>\n",
              "      <td>57.567695</td>\n",
              "      <td>6</td>\n",
              "      <td>5000</td>\n",
              "      <td>291</td>\n",
              "      <td>105</td>\n",
              "      <td>1</td>\n",
              "      <td>13</td>\n",
              "      <td>...</td>\n",
              "      <td>1</td>\n",
              "      <td>1</td>\n",
              "      <td>1</td>\n",
              "      <td>1</td>\n",
              "      <td>0</td>\n",
              "      <td>2016</td>\n",
              "      <td>2</td>\n",
              "      <td>27</td>\n",
              "      <td>24194</td>\n",
              "      <td>0</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>9999</th>\n",
              "      <td>31</td>\n",
              "      <td>1</td>\n",
              "      <td>180.301762</td>\n",
              "      <td>71.425135</td>\n",
              "      <td>4</td>\n",
              "      <td>1000000</td>\n",
              "      <td>288</td>\n",
              "      <td>454</td>\n",
              "      <td>4</td>\n",
              "      <td>13</td>\n",
              "      <td>...</td>\n",
              "      <td>1</td>\n",
              "      <td>0</td>\n",
              "      <td>1</td>\n",
              "      <td>0</td>\n",
              "      <td>0</td>\n",
              "      <td>2015</td>\n",
              "      <td>7</td>\n",
              "      <td>1</td>\n",
              "      <td>24187</td>\n",
              "      <td>0</td>\n",
              "    </tr>\n",
              "  </tbody>\n",
              "</table>\n",
              "<p>10000 rows × 29 columns</p>\n",
              "</div>\n",
              "      <button class=\"colab-df-convert\" onclick=\"convertToInteractive('df-27612114-5d57-46fe-ab60-0ff74e6ddfd2')\"\n",
              "              title=\"Convert this dataframe to an interactive table.\"\n",
              "              style=\"display:none;\">\n",
              "        \n",
              "  <svg xmlns=\"http://www.w3.org/2000/svg\" height=\"24px\"viewBox=\"0 0 24 24\"\n",
              "       width=\"24px\">\n",
              "    <path d=\"M0 0h24v24H0V0z\" fill=\"none\"/>\n",
              "    <path d=\"M18.56 5.44l.94 2.06.94-2.06 2.06-.94-2.06-.94-.94-2.06-.94 2.06-2.06.94zm-11 1L8.5 8.5l.94-2.06 2.06-.94-2.06-.94L8.5 2.5l-.94 2.06-2.06.94zm10 10l.94 2.06.94-2.06 2.06-.94-2.06-.94-.94-2.06-.94 2.06-2.06.94z\"/><path d=\"M17.41 7.96l-1.37-1.37c-.4-.4-.92-.59-1.43-.59-.52 0-1.04.2-1.43.59L10.3 9.45l-7.72 7.72c-.78.78-.78 2.05 0 2.83L4 21.41c.39.39.9.59 1.41.59.51 0 1.02-.2 1.41-.59l7.78-7.78 2.81-2.81c.8-.78.8-2.07 0-2.86zM5.41 20L4 18.59l7.72-7.72 1.47 1.35L5.41 20z\"/>\n",
              "  </svg>\n",
              "      </button>\n",
              "      \n",
              "  <style>\n",
              "    .colab-df-container {\n",
              "      display:flex;\n",
              "      flex-wrap:wrap;\n",
              "      gap: 12px;\n",
              "    }\n",
              "\n",
              "    .colab-df-convert {\n",
              "      background-color: #E8F0FE;\n",
              "      border: none;\n",
              "      border-radius: 50%;\n",
              "      cursor: pointer;\n",
              "      display: none;\n",
              "      fill: #1967D2;\n",
              "      height: 32px;\n",
              "      padding: 0 0 0 0;\n",
              "      width: 32px;\n",
              "    }\n",
              "\n",
              "    .colab-df-convert:hover {\n",
              "      background-color: #E2EBFA;\n",
              "      box-shadow: 0px 1px 2px rgba(60, 64, 67, 0.3), 0px 1px 3px 1px rgba(60, 64, 67, 0.15);\n",
              "      fill: #174EA6;\n",
              "    }\n",
              "\n",
              "    [theme=dark] .colab-df-convert {\n",
              "      background-color: #3B4455;\n",
              "      fill: #D2E3FC;\n",
              "    }\n",
              "\n",
              "    [theme=dark] .colab-df-convert:hover {\n",
              "      background-color: #434B5C;\n",
              "      box-shadow: 0px 1px 3px 1px rgba(0, 0, 0, 0.15);\n",
              "      filter: drop-shadow(0px 1px 2px rgba(0, 0, 0, 0.3));\n",
              "      fill: #FFFFFF;\n",
              "    }\n",
              "  </style>\n",
              "\n",
              "      <script>\n",
              "        const buttonEl =\n",
              "          document.querySelector('#df-27612114-5d57-46fe-ab60-0ff74e6ddfd2 button.colab-df-convert');\n",
              "        buttonEl.style.display =\n",
              "          google.colab.kernel.accessAllowed ? 'block' : 'none';\n",
              "\n",
              "        async function convertToInteractive(key) {\n",
              "          const element = document.querySelector('#df-27612114-5d57-46fe-ab60-0ff74e6ddfd2');\n",
              "          const dataTable =\n",
              "            await google.colab.kernel.invokeFunction('convertToInteractive',\n",
              "                                                     [key], {});\n",
              "          if (!dataTable) return;\n",
              "\n",
              "          const docLinkHtml = 'Like what you see? Visit the ' +\n",
              "            '<a target=\"_blank\" href=https://colab.research.google.com/notebooks/data_table.ipynb>data table notebook</a>'\n",
              "            + ' to learn more about interactive tables.';\n",
              "          element.innerHTML = '';\n",
              "          dataTable['output_type'] = 'display_data';\n",
              "          await google.colab.output.renderOutput(dataTable, element);\n",
              "          const docLink = document.createElement('div');\n",
              "          docLink.innerHTML = docLinkHtml;\n",
              "          element.appendChild(docLink);\n",
              "        }\n",
              "      </script>\n",
              "    </div>\n",
              "  </div>\n",
              "  "
            ]
          },
          "metadata": {},
          "execution_count": 67
        }
      ]
    },
    {
      "cell_type": "code",
      "source": [
        "num_cols = ['age', 'height', 'weight', 'amount',\n",
        "            'medical_info_a1', 'medical_info_a2', 'medical_info_a3', 'medical_info_b1']"
      ],
      "metadata": {
        "id": "atCkr81ojL1r"
      },
      "execution_count": 61,
      "outputs": []
    },
    {
      "cell_type": "code",
      "source": [
        "train_x, test_x = load_data()\n",
        "scaler = StandardScaler()\n",
        "scaler.fit(train_x[num_cols])"
      ],
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/"
        },
        "id": "ME3HC-ndqUY0",
        "outputId": "db003b2f-d3f8-4132-f008-b03291dd43ce"
      },
      "execution_count": 69,
      "outputs": [
        {
          "output_type": "execute_result",
          "data": {
            "text/plain": [
              "StandardScaler()"
            ]
          },
          "metadata": {},
          "execution_count": 69
        }
      ]
    },
    {
      "cell_type": "markdown",
      "source": [
        "Notice that **you should apply the same transfrom** on both training and testing dataset."
      ],
      "metadata": {
        "id": "91MgMriYrlMx"
      }
    },
    {
      "cell_type": "code",
      "source": [
        "train_x[num_cols] = scaler.transform(train_x[num_cols])\n",
        "test_x[num_cols] = scaler.transform(test_x[num_cols])"
      ],
      "metadata": {
        "id": "GXXriSCuqaxF"
      },
      "execution_count": 70,
      "outputs": []
    },
    {
      "cell_type": "code",
      "source": [
        "scaler.mean_,  scaler.scale_"
      ],
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/"
        },
        "id": "OMgU39rKqfMO",
        "outputId": "6317aff7-3e5a-4f84-898b-46700ee7e31a"
      },
      "execution_count": 71,
      "outputs": [
        {
          "output_type": "execute_result",
          "data": {
            "text/plain": [
              "(array([4.20265000e+01, 1.65892951e+02, 6.08570495e+01, 3.84084370e+06,\n",
              "        2.99101200e+02, 2.49454700e+02, 1.98780000e+00, 1.44192000e+01]),\n",
              " array([2.16749209e+01, 9.40817216e+00, 1.07177883e+01, 3.45926743e+06,\n",
              "        1.04491031e+02, 1.03710381e+02, 1.41733947e+00, 2.87131875e+00]))"
            ]
          },
          "metadata": {},
          "execution_count": 71
        }
      ]
    },
    {
      "cell_type": "markdown",
      "source": [
        "Scaled data has zero mean and unit variance:"
      ],
      "metadata": {
        "id": "s2-cyjjrq9Ky"
      }
    },
    {
      "cell_type": "code",
      "source": [
        "train_x[num_cols].mean(axis=0)"
      ],
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/"
        },
        "id": "EBcJxxTPq8hR",
        "outputId": "069581f0-7b5c-4129-9d7b-f6bd522f8c83"
      },
      "execution_count": 72,
      "outputs": [
        {
          "output_type": "execute_result",
          "data": {
            "text/plain": [
              "age                6.221690e-17\n",
              "height            -2.822720e-15\n",
              "weight            -1.951661e-16\n",
              "amount            -2.140954e-16\n",
              "medical_info_a1   -4.767020e-17\n",
              "medical_info_a2   -3.677059e-17\n",
              "medical_info_a3    1.968870e-16\n",
              "medical_info_b1    2.520206e-16\n",
              "dtype: float64"
            ]
          },
          "metadata": {},
          "execution_count": 72
        }
      ]
    },
    {
      "cell_type": "code",
      "source": [
        "train_x[num_cols].std(axis=0)"
      ],
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/"
        },
        "id": "OGOHoAwDqpgv",
        "outputId": "596b3d3c-8ff6-4b29-da09-0637447ecc18"
      },
      "execution_count": 73,
      "outputs": [
        {
          "output_type": "execute_result",
          "data": {
            "text/plain": [
              "age                1.00005\n",
              "height             1.00005\n",
              "weight             1.00005\n",
              "amount             1.00005\n",
              "medical_info_a1    1.00005\n",
              "medical_info_a2    1.00005\n",
              "medical_info_a3    1.00005\n",
              "medical_info_b1    1.00005\n",
              "dtype: float64"
            ]
          },
          "metadata": {},
          "execution_count": 73
        }
      ]
    },
    {
      "cell_type": "markdown",
      "source": [
        "Note that it is possible to disable either centering or scaling by either passing `with_mean=False` or `with_std=False` to the constructor of `StandardScaler`."
      ],
      "metadata": {
        "id": "4ITuiuV7rQ0A"
      }
    },
    {
      "cell_type": "markdown",
      "source": [
        "### Scaling"
      ],
      "metadata": {
        "id": "RSn_k6PJr5to"
      }
    },
    {
      "cell_type": "markdown",
      "source": [
        "An alternative standardization is scaling features to lie between a given minimum and maximum value, often between zero and one."
      ],
      "metadata": {
        "id": "VRfyUFvPsETb"
      }
    },
    {
      "cell_type": "code",
      "source": [
        "scaler = MinMaxScaler()\n",
        "scaler.fit(train_x[num_cols])"
      ],
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/"
        },
        "id": "JslIggHZrKfa",
        "outputId": "21cd2a4a-9d88-4a9f-f8ab-4248994469ff"
      },
      "execution_count": 74,
      "outputs": [
        {
          "output_type": "execute_result",
          "data": {
            "text/plain": [
              "MinMaxScaler()"
            ]
          },
          "metadata": {},
          "execution_count": 74
        }
      ]
    },
    {
      "cell_type": "code",
      "source": [
        "train_x[num_cols] = scaler.transform(train_x[num_cols])\n",
        "test_x[num_cols] = scaler.transform(test_x[num_cols])"
      ],
      "metadata": {
        "id": "z0eau0gIr8BA"
      },
      "execution_count": 75,
      "outputs": []
    },
    {
      "cell_type": "markdown",
      "source": [
        "Note that you can scale to any range by specifying `feature_range=(min, max)`."
      ],
      "metadata": {
        "id": "K-81LcP8sUwy"
      }
    },
    {
      "cell_type": "markdown",
      "source": [
        "### Logarithm transform and binning"
      ],
      "metadata": {
        "id": "1_DaZjX5ukH5"
      }
    },
    {
      "cell_type": "code",
      "source": [
        "x = np.array([1.0, 10.0, 100.0, 1000.0, 10000.0])"
      ],
      "metadata": {
        "id": "HjGBm6FAujTi"
      },
      "execution_count": 76,
      "outputs": []
    },
    {
      "cell_type": "code",
      "source": [
        "np.log(x)"
      ],
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/"
        },
        "id": "R5QSJcnsr9P3",
        "outputId": "98203c68-d58f-4c08-89f8-a32df5674ca8"
      },
      "execution_count": 77,
      "outputs": [
        {
          "output_type": "execute_result",
          "data": {
            "text/plain": [
              "array([0.        , 2.30258509, 4.60517019, 6.90775528, 9.21034037])"
            ]
          },
          "metadata": {},
          "execution_count": 77
        }
      ]
    },
    {
      "cell_type": "code",
      "source": [
        "# If your data contains zero value, try to plus one first\n",
        "np.log1p(x)"
      ],
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/"
        },
        "id": "SO7fM3svuoBs",
        "outputId": "3d245dea-bcc4-4632-cd57-d533e41e5969"
      },
      "execution_count": 79,
      "outputs": [
        {
          "output_type": "execute_result",
          "data": {
            "text/plain": [
              "array([0.69314718, 2.39789527, 4.61512052, 6.90875478, 9.21044037])"
            ]
          },
          "metadata": {},
          "execution_count": 79
        }
      ]
    },
    {
      "cell_type": "markdown",
      "source": [
        "Binning allows you to transform numerical variable to categorical variable"
      ],
      "metadata": {
        "id": "tLO865cH03qV"
      }
    },
    {
      "cell_type": "code",
      "source": [
        "x = [1, 7, 5, 4, 6, 3]"
      ],
      "metadata": {
        "id": "5cstCvu90miV"
      },
      "execution_count": null,
      "outputs": []
    },
    {
      "cell_type": "code",
      "source": [
        "bin_edges = [-float('inf'), 3.0, 5.0, float('inf')]\n",
        "binned = pd.cut(x, bin_edges, labels=False)\n",
        "print(binned)"
      ],
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/"
        },
        "id": "IONZGV8f0rG8",
        "outputId": "ffe495cb-f8ee-48c0-a90e-93f4dd27f9f6"
      },
      "execution_count": 120,
      "outputs": [
        {
          "output_type": "stream",
          "name": "stdout",
          "text": [
            "[0 2 2 2 2]\n"
          ]
        }
      ]
    },
    {
      "cell_type": "markdown",
      "source": [
        "### Power transfrom"
      ],
      "metadata": {
        "id": "OXwbe_LIu2Ga"
      }
    },
    {
      "cell_type": "code",
      "source": [
        "train_x, test_x = load_data()"
      ],
      "metadata": {
        "id": "m0Hu4EvturDr"
      },
      "execution_count": 94,
      "outputs": []
    },
    {
      "cell_type": "markdown",
      "source": [
        "Box-cox transform only works for postive data"
      ],
      "metadata": {
        "id": "MrLsnkE4u-pT"
      }
    },
    {
      "cell_type": "code",
      "source": [
        "pos_cols = [c for c in num_cols if (train_x[c] > 0.0).all() and (test_x[c] > 0.0).all()]"
      ],
      "metadata": {
        "id": "_I4RsIdhu7p3"
      },
      "execution_count": 95,
      "outputs": []
    },
    {
      "cell_type": "code",
      "source": [
        "pt = PowerTransformer(method='box-cox')\n",
        "pt.fit(train_x[pos_cols])"
      ],
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/"
        },
        "id": "2up_ukreu92d",
        "outputId": "3dbc4573-9366-4d64-d663-9d51c1943e8f"
      },
      "execution_count": 96,
      "outputs": [
        {
          "output_type": "execute_result",
          "data": {
            "text/plain": [
              "PowerTransformer(method='box-cox')"
            ]
          },
          "metadata": {},
          "execution_count": 96
        }
      ]
    },
    {
      "cell_type": "code",
      "source": [
        "train_x[pos_cols] = pt.transform(train_x[pos_cols])\n",
        "test_x[pos_cols] = pt.transform(test_x[pos_cols])"
      ],
      "metadata": {
        "id": "TJbh3I2evIMH"
      },
      "execution_count": 97,
      "outputs": []
    },
    {
      "cell_type": "code",
      "source": [
        "train_x, test_x = load_data()"
      ],
      "metadata": {
        "id": "-0WblhyfvKpA"
      },
      "execution_count": 98,
      "outputs": []
    },
    {
      "cell_type": "code",
      "source": [
        "pt = PowerTransformer(method='yeo-johnson')\n",
        "pt.fit(train_x[num_cols])"
      ],
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/"
        },
        "id": "JgSOtg9LvQQY",
        "outputId": "ad99cae2-a911-4778-9138-5988e6b62779"
      },
      "execution_count": 99,
      "outputs": [
        {
          "output_type": "execute_result",
          "data": {
            "text/plain": [
              "PowerTransformer()"
            ]
          },
          "metadata": {},
          "execution_count": 99
        }
      ]
    },
    {
      "cell_type": "code",
      "source": [
        "train_x[num_cols] = pt.transform(train_x[num_cols])\n",
        "test_x[num_cols] = pt.transform(test_x[num_cols])"
      ],
      "metadata": {
        "id": "Lk0Q5NphvRSP"
      },
      "execution_count": 100,
      "outputs": []
    },
    {
      "cell_type": "code",
      "source": [
        "rng = np.random.RandomState(304)\n",
        "original_data = rng.lognormal(size=(1000,1))\n",
        "pt = PowerTransformer(method='box-cox')\n",
        "transformed_data = pt.fit_transform(original_data)\n",
        "\n",
        "fig, ax=plt.subplots(1, 2, figsize=(15, 3))\n",
        "sns.histplot(original_data, ax=ax[0], kde=True, legend=False)\n",
        "ax[0].set_title(\"Original Data\")\n",
        "sns.histplot(transformed_data, ax=ax[1], kde=True, legend=False)\n",
        "ax[1].set_title(\"Transformed data\")\n",
        "plt.show()"
      ],
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/",
          "height": 227
        },
        "id": "xlIffhoRxLiE",
        "outputId": "13071ccb-a36e-4d44-b285-617fcb225372"
      },
      "execution_count": 116,
      "outputs": [
        {
          "output_type": "display_data",
          "data": {
            "text/plain": [
              "<Figure size 1080x216 with 2 Axes>"
            ],
            "image/png": "iVBORw0KGgoAAAANSUhEUgAAA3sAAADSCAYAAADzNtlYAAAABHNCSVQICAgIfAhkiAAAAAlwSFlzAAALEgAACxIB0t1+/AAAADh0RVh0U29mdHdhcmUAbWF0cGxvdGxpYiB2ZXJzaW9uMy4yLjIsIGh0dHA6Ly9tYXRwbG90bGliLm9yZy+WH4yJAAAgAElEQVR4nOzdd3hcxdnG4d+76r1bslXcu3EBY4oJJJhOwIQAIRAwhMAXUikpEFJIQhKSAAlphF5Cr4EEQu/B2JYLuHdbki2rWL23+f7YNZGxbMuypLNaPfd17eXd2XPOPiuQZt89c2bMOYeIiIiIiIiEFp/XAURERERERKT3qdgTEREREREJQSr2REREREREQpCKPRERERERkRCkYk9ERERERCQEqdgTEREREREJQSr2RHqRmf3IzO7p7W27cSxnZmN641giIiL9xcwyzexdM6s1s1u9ztOZmY0I9K/h3dz+ATO7qa9ziRwIFXsie2Fml5jZcjNrMLMdZnaHmSXvax/n3K+dc1/rzvEPZNuDYWZvm1lToCOtMbPFZnadmUUdwDFUTIqIhBgzq+t06zCzxk6PL+ynGFcA5UCic+7afnpNzwX65j7/DCCiYk+kC2Z2LfBb4PtAEnAkMBx4zcwi97JPt77588i3nHMJwFDgWuB84CUzM29jiYiIV5xz8btuQAFwRqe2R3Zt18f923BglXPOHeiOQd7vigQFFXsin2JmicDPgW875152zrU657YA5wEjgK8EtrvRzJ42s4fNrAa4JND2cKdjXWxmW81sp5n9xMy2mNkJnfZ/OHB/11CReWZWYGblZnZDp+PMMrP5ZlZlZsVm9pe9FZ374pyrd869DZwJHAWcvr/jm9m7gd0/Cnzb+yUzSzGzf5tZmZlVBu7nHGgeEREJPmb2WTMrMrMfmtkO4P79/d0PnKn6pZn9NzCS5FUzSw88Fx3oK3cG+plFgeGbDwDzgB8E+pcTzCzKzP5oZtsDtz/uGomyl1w3mtlTgePXBkbkjDOz682s1MwKzeykTjmTzOzeQF+3zcxuMrOwwHNhZnZLoA/eRKCP3MfPaYaZLQm87hNAdKfn9vrzMrNfAZ8B/hJ4338JtN8eyLtrFM5neuE/pwxyKvZE9nQ0/j/Yz3ZudM7VAS8BJ3Zqngs8DSQDj3Te3swmAX8DLsR/Ri0JyN7Pax8DjAfmAD81s4mB9nbgaiAdf5E2B/jGAb6vzu+lAMjH39ns8/jOuWMD20wLfNv7BP6/Hffj/0Y2D2gE/tLTPCIiEnSygFT8f+evoHt/9y8ALgWGAJHA9wLt8/D3gblAGvB1oNE5dwn+vvN3gf7ldeAG/KNppgPTgFnAj/eRC+AM4B9ACrAUeCWQNxv4BXBnp/0fANqAMcAM4CRg13DKy4HPB9pnAufs7YcT+EL0n4HXTQWeAr7YaZO9/rycczcA7+EfdRPvnPtWYJ9FgfedCjwKPGVm0YgcBBV7IntKB8qdc21dPFcceH6X+c65fzrnOpxzjZ/a9hzgX865951zLcBPgf0NU/m5c67ROfcR8BH+jg7n3GLn3IfOubbAWcY7geMO/K3tZjv+DuWAj++c2+mce8Y51+CcqwV+1Qt5REQkeHQAP3PONQf6pe783b/fObcu0B8+ib9wAWjFX+SNcc61B/qcmr287oXAL5xzpc65MvwjbS7aW65A23vOuVcC/fZTQAZws3OuFXgcGGFmyWaWCZwGXBUY6VIK/AH/pQ3gH8HzR+dcoXOuAvjNPn4+RwIRge1bnXNP4y/WgJ71k865hwP7tTnnbgWi8H8BLNJjGusssqdyIN3Mwrso+IYGnt+lcB/HGdb5eedcg5nt3M9r7+h0vwGIBzCzccBt+L9pjMX/u7t4P8fan2zgg54c38xi8XeQp+D/JhUgwczCnHPtB5lLRES8V+aca9r1oJt/97vsw/Cf/coFHjf/RGcPAzcEirFPGwZs7fR4a6Cty1wBJZ3uN+L/wra902MCWYbhL9CK7X+XrPv4X1+9W7/9qRxd5dz2qWsNP9m+J/2kmX0PuCxwbAcksvsXzCIHTGf2RPY0H2gGzu7caGbxwKnAG52a93WmrhjofD1DDP5vNnviDmANMNY5lwj8COjx5Cpmlgschn8YSU+Ofy3+bxuPCGy/a6inJnwREQkNn+7fevx3P3Dm6+fOuUn4L5X4PHDxXjbfjn/o4y55gba95ToQhfj793TnXHLgluicmxx4vhh/Udr5tfemGMg2222is87b7+/ntdv7CFyf9wP8ZxdTnHPJQDXqV+UgqdgT+RTnXDX+YSN/NrNTzCzCzEbgH5JShP8byu54GjjDzI4OjO2/kZ7/0U4AaoA6M5sAXNmTg5hZrJkdBzwPLMR/DWJ3jl8CjPpUnkagysxSgZ/1JI+IiAwYPf67b2afM7NDAhOh1OAf1tmxl80fA35sZhmBCV5+iv9M4EFzzhUDrwK3mlmimfnMbHSgXwR/P/8dM8sxsxTgun0cbj7+a/++E/iccDb+6wt32d/Pq6t+tQ0oA8LN7Kf4z+yJHBQVeyJdcM79Dv/ZrVvwd0wL8H8jOMc519zNY6wEvo3/eoFioA4oxf+t4oH6Hv4L32uBu4EnDnD/v5hZLf7O5Y/AM8Apzrldne3+jn8j8GBgFrXzAseIwT+k9UPg5QN9QyIiMqAczN/9LPxfgNYAq4F32PsXpzfhn0DsY2A5sCTQ1lsuxj95zCqgMpBraOC5u/FP7vJR4HWf7eoAAIFr8c8GLgEqgC99avv9/bxuB84JzNT5p8Drvgyswz8ctIl9Xyoi0i3Wg2VNRKQHAsNAq/APldzsdR4RERERCW06syfSh8zsjMDQyTj8ZwmXA1u8TSUiIiIig4GKPZG+NRf/heXbgbHA+U6n00VERESkH2gYp4iISD8zs/vwz0hY6pybEmj7Pf7FoVuAjcClzrmqwHPX45+SvR34jnPuFU+Ci4jIgNJnZ/bMLNfM3jKzVWa20sy+G2hPNbPXzGx94N+UQLuZ2Z/MbIOZfWxmh/ZVNhEREY89gH/9rc5eA6Y456bin6ThegAzm4R/0efJgX3+FpjVUEREZJ/6chhnG3BtYE2VI4FvBjqs64A3nHNj8a9Xtmta21PxD3MbC1yBf90vERGRkOOcexf/DH6d2151zrUFHn7I/9bpnAs87pxrDkzutIHdp3gXERHpUnhfHTiwlklx4H6tma0GsvF3Wp8NbPYg8Dbww0D7Q4HrmT40s2QzGxo4TpfS09PdiBEj+uotiIhIEFm8eHG5cy7D6xz95Kv8bwmUbPzF3y5FgbZ9Uh8pIjI47Kt/7LNir7PAgtQz8K9VltmpgNsBZAbuZ7P7eiK7OrO9FnsjRowgPz+/t+OKiEgQMrOtXmfoD2Z2A/7RMY/0YN8r8I+OIS8vT32kiMggsK/+sc9n4wysLfYMcJVzrqbzc4GzeAc0Q4yZXWFm+WaWX1ZW1otJRUREvGVml+CfuOXCTjP3bgNyO22WE2jbg3PuLufcTOfczIyMwXISVERE9qZPiz0zi8Bf6D3inHs20FxiZkMDzw8FSgPt3erM1JGJiEgoMrNTgB8AZzrnGjo99QJwvplFmdlI/Ne2L/Qio4iIDCx9ORunAfcCq51zt3V66gVgXuD+POD5Tu0XB2blPBKo3tf1eiIiIgOVmT0GzAfGm1mRmV0G/AVIAF4zs2Vm9ncA59xK4ElgFfAy8E3nXLtH0UVEZADpy2v2ZgMXAcvNbFmg7UfAzcCTgY5tK3Be4LmXgNPwzzLWAFzah9lEREQ845z7chfN9+5j+18Bv+q7RCIiEor6cjbO9wHby9NzutjeAd/sqzwiIiIiIiKDSb/MxjkQXXv9TyivqtutLT05nlt/80uPEomIiIgEv9y84RQVFvRo35zcPAoLBsXEuyL9QsXeXpRX1TH97Ct3a1v2rNZ5FxEREdmXosICbnt1bY/2veak8b2cRmRw6/OlF0RERERERKT/qdgTEREREREJQSr2REREREREQpCKPRERERERkRCkYk9ERERERCQEqdgTEREREREJQSr2REREREREQpCKPRERERERkRCkYk9ERERERCQEqdgTEREREREJQSr2REREREREQpCKPRERERERIDdvOGbWo1tu3nCv44vsIdzrACIiIiIiwaCosIDbXl3bo32vOWl8L6cROXg6syciIiIiIhKCVOyJiIiIiIiEIBV7IiIi/czM7jOzUjNb0akt1cxeM7P1gX9TAu1mZn8ysw1m9rGZHepdchERGUhU7ImIiPS/B4BTPtV2HfCGc24s8EbgMcCpwNjA7Qrgjn7KKNKnnHPUNrVSVNnA+pJaVhXXEDvhGN5aU8qCTTvZXF5Pa3uH1zFFBjRN0CIiItLPnHPvmtmITzXPBT4buP8g8Dbww0D7Q845B3xoZslmNtQ5V9w/aUV6T21TKxvL6tmys54d1U00t+1ezGXMvY5LH1j0yeNwn5GbGsuo9DjGZyUwYWgik4YmMCItjvAwnbMQ2R8VeyIiIsEhs1MBtwPIDNzPBgo7bVcUaFOxJwOCc46tFQ0sK6xi684GAFJiIxg7JJ6MhCiSYyOJjQwjIszHry87jQWLl9HQ0k5xdROby+vYUt7AhtI63llXRluHAyAy3Me4zHgmZiUyYWgiE7MSmDg0kZS4SC/fqkjQUbEnIiISZJxzzszcge5nZlfgH+pJXl5er+cSOVCFFQ38d2M5JTXNxEaGMWtEKhOyEvZalLWWFzAjL6XL55rb2tlYWs/q4hrW7KhhzY5a3lpbylOLiz7ZJjMxipyUWNLiIkmLjyI5NoJwnxHmM8LMaO1wNLe109zaQVNrO81tu/+beeHveHRhATh/QRkbGUZiTATp8ZFkJUaTFBOBmfXJz0qkL6jYExERCQ4lu4ZnmtlQoDTQvg3I7bRdTqBtD865u4C7AGbOnHnAxaJIb6lvbuOddWWsL60jITqcOROGMHFoImG+nhdKUeFhTBqWyKRhibu1l9U2s2ZHjb8ILK5lR00TW3c2sKSgkurGVto6HM51Po6PqHAf0RFhREX4iA4P898P9+HamomP8n88bmnroKy2mU1l9bQHDpAUE8HojDimDEvSWUQZEFTsiYiIBIcXgHnAzYF/n+/U/i0zexw4AqjW9XoSzGJGzeSRBQW0tHdw5KhUDstL6dPr6zISoshIyOAzYzP2uk1Hh6PdOcJ9ts8zc/aN2Vx32e6Lqnd0OHbWt7C9upHN5fUsK6xiSUEVw9NiOWpUGpmJ0b32XkR6m4o9ERGRfmZmj+GfjCXdzIqAn+Ev8p40s8uArcB5gc1fAk4DNgANwKX9HlikG5rb2rn5P2sYcu6NxEWFcc6UHFKD5OyXz2f46NlZRZ/PAgVlFNNykqlvbmPl9hqWFlby+KJCJmQl8Jmx6b2cWKR3qNgTERHpZ865L+/lqTldbOuAb/ZtIpGDU1LTxGUPLmLFthpq8p/nm9+7JmRny4yLCmfWyFSm5yaTv7WCxVsr2VJeT8yYI7yOJrKH0PwtFBEREZF+sXZHLV/463/ZXFbP3RfPpPKNu0O20OssMtzH0aPTufCI4STGRDDkiz/hpn+vor1Dl8tK8Aj930QRERER6RMfbCjnnDs+oK3D8eTXj+LESZn732lfzIeZ9fiWmze8d97YAUiNi+TcmTnULP4X97y/mSseyqe+ua3fc4h0RcM4RUREROSAvfhxMVc9sZSR6XHcf+ksspNjDv6groPbXl27/+324pqTxh98hh4I9/mofP1Obv/l9fzs+RVccPeHPPTVI0iKjfAkj8guOrMnIiIiIgfkpeXFfOfxpUzPTeaprx/dO4VebzjIM4MH66Ijh3PnRTNZXVzLBfd8SGV9Sy+8KZGe05k9EREREem2l1cU853HljIjN5n7L531ybp0QcHLM4OBQhMgeuShNJ/9YyZd+RdKHr8B19q0391zcvMoLNja89cX6UIQ/XaKiIiISDB7ZeUOvvXoUqbmJHH/pYcHV6HntU8VmpvK6vj38khm3/Qic6dl73dBea+GoEpo67NhnGZ2n5mVmtmKTm03mtk2M1sWuJ3W6bnrzWyDma01s5P7KpeIiIiIHLgFm3by7UeXMjk7iQe+OouEaF2Pti+jMuI5YUImhRWNvLuuzOs4Mkj15TV7DwCndNH+B+fc9MDtJQAzmwScD0wO7PM3Mwvrw2wiIiIi0k0bSmu5/KF8clJjePDSw0lUodctk4YlctjwFD7eVs3ybdVex5FBqM+KPefcu0BFNzefCzzunGt2zm0GNgCz+iqbiIiIiHRPaW0T8+5bRGS4jwcvnUVybKTXkQaUo0enMTwtlrfXlrKtqtHrODLIeDEb57fM7OPAMM+UQFs2UNhpm6JA2x7M7Aozyzez/LIynRIXERER6Sv1zW1c9kA+FfUt3HfJ4eSmxnodacDxmXHK5CwSoyN48eNiaptavY4kg0h/F3t3AKOB6UAxcOuBHsA5d5dzbqZzbmZGRkZv5xMRERERwDnHD57+mJXbq/nLBTOYmpPsdaQBKzoijDOmDaO9w/GfFTvo6HBeR5JBol+nUHLOley6b2Z3A/8OPNwG5HbaNCfQFlQWL85n3pVX79aWnhzPrb/5pUeJRERERPrGPe9t5sXlxfzwlAnMmZjpdZwBLzUuks9NyOCVlSXkb61k1shUryPJINCvxZ6ZDXXOFQcefgHYNVPnC8CjZnYbMAwYCyzsz2zd0dJuTD/7yt3alj17h0dpRERERPrGBxvLufnlNZwyOYuvHzfK6zghY0JWIpvL6/lw807yUmPJSor2OpKEuL5ceuExYD4w3syKzOwy4HdmttzMPgY+B1wN4JxbCTwJrAJeBr7pnGvvq2wiIiIi0rXtVY18+9GljEiL5ffnTv1koXDpHcePH0J8VDgvr9xBS1uH13EkxPXZmT3n3Je7aL53H9v/CvhVX+URERERkX1rbe/gm48uoam1nTsvOkpr6fWBqIgwTpqUyTNLtvHu+jJO0BBZ6UNezMYpIiIiIkHoz29uYGlBFVue+jVjMxMwswO+yf7lpMQyc3gKK7fXsHVnvddxJIT16zV7IiIiIhKc8rdU8Jc311O3/HVu+tM9PT7ONSeN78VUoeuIkalsLKvjzTWlfOXI4V7HkRClM3siIiIig1xNUytXPbGMnJRYKl6/0+s4g0J4mI85EzKpaWpj/qadXseREKViT0REJIiY2dVmttLMVpjZY2YWbWYjzWyBmW0wsyfMLNLrnBK8cvOGH/DQy1HnXEfhzjoW3P4NXEuj129h0MhOiWHKsESWFVQRmTXG6zgSgjSMU0REJEiYWTbwHWCSc67RzJ4EzgdOA/7gnHvczP4OXAZo7R/pUlFhAbe9urbb268vqeWlFTs4cmQqRzzwvIZh9rNjxqSzubyetFO+TWt7BxFhOhcjvWfQF3vXXv8Tyqvq9mhfsuwjpp/tQSARERnswoEYM2sFYoFi4HjggsDzDwI3omJPekFjSztvrS1jSEIUh4/QIt9eiIoI47jxGbzU0s79/93MFceO9jqShJBBX+yVV9XtsVA6wPyFX/MgjYiIDGbOuW1mdgtQADQCrwKLgSrnXFtgsyIg26OIEmLeWV9Gc1s7X5iYjc+nmTS9MiYjnoYNC7n99TDOmp7NkEQtti69Q+eJRUREgoSZpQBzgZHAMCAOOOUA9r/CzPLNLL+srKyPUkqo2Fxez9odtcwckUpGQpTXcQY1M6PyjbtpbXfc/PIar+NICFGxJyIiEjxOADY758qcc63As8BsINnMdo3GyQG2dbWzc+4u59xM59zMjIyM/kksA1JzWztvriklLS6SWRq+GRTaqor52mdG8uySbSzeWuF1HAkRKvZERESCRwFwpJnFmn916jnAKuAt4JzANvOA5z3KJyHi/Q3l1De3ccLETMI0fDNofPNzY8hKjObGF1bR3uG8jiMhQMVeN7S2d/DaqhLaJp1CVUOL13FERCREOecWAE8DS4Dl+Pvpu4AfAteY2QYgDbjXs5Ay4BVXN7JiWw3Tc5PJStK1YcEkLiqc60+bwPJt1TyVX+h1HAkBKvb2o665jacWF7G6uIaOrEk89OFW1pfUeh1LRERClHPuZ865Cc65Kc65i5xzzc65Tc65Wc65Mc65c51zzV7nlIGpo8Px1poy4qLCOHJUmtdxpAtnThvGrBGp/O6VtdQ0tXodRwY4FXv78fbaUqoaWjhj2jAi3r+TjPgo3lpbRlNru9fRRERERA7Ix9uqKatr5rixGUSG62NgMDIzfnrGJCrqW7jj7Y1ex5EBTr/l+1Dd2Mqmsnqm5SQzMj0Oa6lnzsQhNLW288HGnV7HExEREem2+uY25m/cSV5qLGOGxHsdR/ZhSnYSX5iRzX3vb2ZbVaPXcWQAU7G3Dx8VVYHB1JykT9qGJEQzLTeZ5duqqajX9XsiIiIyMLy3vpz2Dsdnx2fgn/9Hgtn3Th6PA259Za3XUWQAU7G3Fy4skpXbaxg7JJ6E6Ijdnjt8RAo+g+Xbqj1KJyIiItJ9RZUNrC2p5bARKaTERnodR7ohOzmGr84eybNLt7FCnzmlh1Ts7UVHxhha2jqYlpO8x3OxkeGMyYhndXEN7foRioiISBDrcI531pWREB3O4cNTvI4je2M+zGy324/OOoz2hmpO+N5f93ju07fcvOFevwMJQuH732RwcmkjiYkIY+hepiSekp3EutI6yiIy+zmZiIiISPet3FZDeV0Lp03JIjxMX1IHLdfBba/uOWRzWWEV76xL4tuPLmFketxed7/mpPF9mU4GKP3Gd8E5R0faCHJTY/Y6pj0nJYbk2AiKI7P7OZ2IiIhI9zS3tjN/006GJUdrUpYB6pDsJJJiIvhgYznOaaF1OTAq9rqws74FouLJS43d6zZmxqShidSEJ1NU2dCP6URERES6Z8HmChpb2zlunCZlGajCfMaRo1Ipr2thXUmd13FkgOlWsWdms7vTFioKKvzF276KPYCxgW/IXl6xo88ziYhI8Bls/aMMLJX1LXxUVMXkYYkMSej6shQZGMZnJpAWH8n8TTtp79DZPem+7p7Z+3M320JCQUUD1O3cYxbOT0uOjSS+vZaXlhf3UzIREQkyg6p/lIHl3fVlhPt8HDUqzesocpDMjKNHpVHd2Mrq4hqv48gAss8JWszsKOBoIMPMrun0VCIQ1pfBvNLe4dhW2YivYjNw5H63T28tYUlBAturGhmWHNP3AUVExHODsX+UgWVLeT1bdjZwzJh04qI0H18oGJkeR1ZiNAs2VzAhK0GT7Ui37O//kkggHn9RmNDpVgOc07fRvFFe10xbh8NXWdSt7TNaSwH4j4ZyiogMJoOuf5QBxBfGu+vLSI6JYHrunktIycBkZhw9Oo265jY+1rp70k37/KrHOfcO8I6ZPeCc29pPmTxVWtMMgNV0r3iL7WhgQlYCr67cwWXHjOzLaCIiEiQGY/8oA0fCjNOpbGjljKlDCfNpUpZQkpsaS15qLIu2VDB5WCJR4RpIIPvW3fO/UWZ2l5m9amZv7rr1aTKPlNQ2ER3ug6buf2NywsRM8rdWUtXQ0ofJREQkCA2a/lEGhor6FpKOuYC81Nh9rskmA9dRo9Noau1gWUGV11FkAOjuIO6ngL8D9wDtfRfHe6U1zQxJjOZABmXOmTiEv7y1gbfXlnHWDK27JyIyiAya/lEGhtteW4svMoZjx6ZrqYUQlZUYzeiMOJYUVDE1N5mYCJ3dk73r7pm9NufcHc65hc65xbtufZrMA23tHeysbyYzMeqA9puWk0x6fBSvry7po2QiIhKkBkX/KAPD6uIaHl1QQO2SF0mLP7DPMjKwHDUqjZb2DvK3VHgdRYJcd4u9f5nZN8xsqJml7rr1aTIPlNe10OE44LVofD5jzoQhvLOujJa2jj5KJyIiQWhQ9I8S/Jxz/OJfq0iMiaD6v496HUf6WFp8FBOzEvioqJq6pjav40gQ626xNw/4PvABsDhwy++rUF4pqWkCOOAze+Afylnb1MYifcMiIjKYDIr+UYLfKytLmL9pJ9ecOI6Opjqv40g/OGJUGs45Fuqzp+xDt67Zc84NimkmS2qbiIkII74H69EcMzadyHAfr68uYfaY9D5IJyIiwaYv+kczS8Z/DeAUwAFfBdYCTwAjgC3Aec65yt5+bRmYmlrb+fVLqxmXGc8Fs/KY53Ug6RdJMRFMyU5ixbZqDs3TEhvStW5VNWZ2cVftzrmH9rHPfcDngVLn3JRAWypddFbmv4L4duA0oAG4xDm3pPtvo3eU1TYzJDGqRxc0x0aGM3t0Gq+vLuGnn5+ki6JFRAaBnvSP3XA78LJz7hwziwRigR8Bbzjnbjaz64DrgB8exGtICLnnvU0UVDTw8GVHaKHtQWbWiFRWba/hw806uydd6+5fhMM73T4D3AicuZ99HgBO+VTbdfg7q7HAG4HHAKcCYwO3K4A7upmr17R3OCrrW0k/iAuaT5iUSWFFI+tLNXxCRGSQ6En/uFdmlgQcC9wL4Jxrcc5VAXOBBwObPQic1fPIEkq2VzXy17c2csrkLI4Zq5FFg01cVDjTc5NZu6OWiPThXseRINTdYZzf7vw4MMTk8f3s866ZjfhU81zgs4H7DwJv4/9mci7wkHPOAR+aWbKZDXXOFXcnX2+obmyl3TnS4iJ7fIw5EzK5gRW8vrqEcZkJvZhORESCUU/6x/0YCZQB95vZNPzXAH4XyOzUJ+4AMg/iNSSE/Pql1XQ4xw2nT/Q6injksOEpfLytmuRjuxxoIINcT8/11+PvkA7U3jqrbKCw03ZFgbY9mNkVZpZvZvllZWU9iNC1nXXNAAdV7GUlRTMlO5E3Vpf2ViwRERlYeto/7hIOHArc4ZybETjedZ03CHwx6rraua/6SAlOH27ayb8/Lubrx40mNzXW6zjikeiIMA4bnkLs2CNYvFXDOWV33Sr2zOxfZvZC4PYi/gvFnzuYF95XZ7Wf/e5yzs10zs3MyMg4mAi72VnfAkDqQRR7ACdMzGRJQSXlgeJRRERCVx/0j0VAkXNuQeDx0/iLvxIzGxp4zaFAl98q9lUfKcGnrb2DG19YSXZyDFd+drTXccRjM3KTaa+r5Hcvrx3AeSAAACAASURBVMX/EVvEr7vTTt7S6X4bsNU5V9SD1yvZNTzzU53VNiC303Y5gbZ+s7OuheSYiIO+sPmEiZn88fX1vLWmlHNn5u5/BxERGch6q38EwDm3w8wKzWy8c24tMAdYFbjNA24O/Pv8QWSWEPDowgLW7KjljgsPJToizOs44rGIMB/V859gQfzXeXd9OceN05c94tetysY59w6wBkgAUoCWHr7eC/DJjMCdO6sXgIvN70iguj+v1wPYWd9MWvzBndUDmDwskazEaA3lFBEZBHqxf+zs28AjZvYxMB34Nf4i70QzWw+cEHgsg1RFfQu3vrqO2WPSOGVKltdxJEjULnuZnJQYfv/KGjo6dHZP/Lq79MJ5wO/xT6hiwJ/N7PvOuaf3sc9j+CdjSTezIuBn+DunJ83sMmArcF5g85fwL7uwAf/SC5f25M30VFt7B1UNrYwdcuCTqixenM+8K6/erS0m6RDeXd9KU2u7vm0TEQlhPekf98c5twyY2cVTc3p6TAktt7y6lrrmNn52xmQt9ST/09HG1SeM49qnPuI/K3Zw+tShXieSINDdYZw3AIc750oBzCwDeB3/tQRdcs59eS9P7dFZBa7f+2Y3s/S6yoZWHPTozF5LuzH97Ct3a9v5wpM0kMmHm3by2fFDeimliIgEoQPuH0UOxvKiah5bWMClR4/UzN+yh7NmZPP3dzZy62trOXlyptZdlG7Pxunb1ZEF7DyAfYPezvqDn4mzs5S2SmIiwjSUU0Qk9IV0/yjBpa29g+uf+5j0+CiuOnGs13EkCIX5jGtPGs+msnqeWdLjy4clhHS3Q3rZzF4xs0vM7BLgRfxDL0PCzroWfAbJsb1T7Pno4DNj03ltVYnGTIuIhLaQ7h8luDw0fysrttXwszMmkRgd4XUcCVInT85kem4yt722jsaWdq/jiMf2WeyZ2Rgzm+2c+z5wJzA1cJsP3NUP+fpFZUMLyTGRhPl6b9z7KVOy2FHTxLKiql47poiIBIfB0j9K8CiubuTWV9dy3LgMTj9E12LJ3pkZN5w+kZKaZu5+b5PXccRj+zuz90egBsA596xz7hrn3DX41xD6Y1+H6y8V9S2kxPXuN2RzJmYSEWa8vGJHrx5XRESCwqDoHyV4/PyFVbR1OH45d4omZZH9OnxEKqdMzuLv72yktLbJ6zjiof0Ve5nOueWfbgy0jeiTRP2sA6O6sfWgF1P/tKSYCI4Zk85Ly4u1uKWISOgJ+f5Rgscbq0t4eeUOvjNnLHlpsV7HkQHiulMn0NLWwR9eW+d1FPHQ/oq95H08F9ObQbzS5Iuhw0FKL12v19mpU4ZSVNnIyu01vX5sERHxVMj3jxIcappa+fE/VzAuM57LPzPK6zgygIxIj+Oio4bzxKJC1u6o9TqOeGR/xV6+mV3+6UYz+xqwuG8i9a8GXxxAr5/ZAzhxUiZhPuPF5f26PryIiPS9kO8fJTj8+sXVlNQ08ftzphEZrole5cB8d85Y4qPC+c1/VnsdRTyyv3X2rgKeM7ML+V/nNROIBL7Ql8H6S0OYv9jrizN7KXGRHDMmnReWbecHJ4/XGHsRkdAR8v2jeO+99WU8vqiQ/ztuFNNy93UyWaRrybGRfGfOWG56cTVvrinh+AmZXkeSfrbPr4iccyXOuaOBnwNbArefO+eOcs6FxMwjDb5Y4qPC++zbsrNmDGNbVSOLt1b2yfFFRKT/DYb+UbxV19zGdc8sZ1RGHFefMM7rODKAXXzUCMYMiefGF1bR1KqlGAabblU4zrm3nHN/Dtze7OtQ/anBF9frM3F2duKkLKIjfDy/bHufvYaIiHgjlPtH8U5u3nCGn/ldiirr+e9tVxITGY6Zdfsm0llkuI9fnDmZgooG7nxHSzEMNvsbxhnSnHM0hMUxqg+GcO4SHxXOiZOyeHF5MT89YxIRYRpvLyIiIntXHpZG5ozTmJGXzLEPPH/A+19z0vg+SCUD2dFj0vn81KH87e0NfGFGtmZ1HUQGdeVRWttMu4X3yfV6nc2dNoyK+hbeXVfWp68jIiIiA1tFfQtpp19NalwkR49K8zqOhJAfnz6JMJ/x83+t9DqK9KNBXextKK0D+mYmzs6OG59BenwkT+YX9unriIiIyMDlnOOHz3xMWHQCp0zOIlyjgaQXZSVFc9UJY3ljTSmvrSrxOo70k0H9V2TS0EQm13/EkISoPn2diDAfZx+awxurSymrbe7T1xIREZGB6fFFhby2qoTKdx8ko48/m8jgdOnskYzLjOcn/1xBTVOr13GkHwzqa/ZS4iJJbysjKiKsV4+7eHE+8668ere2Bl8sbQlH89zSIq44dnSvvp6IiIgMbJvK6vjFv1ZxzJh0Hvnt88BvvY4kA435ujVBT2TWWLIuuoWRX7iWipf//El7Tm4ehQVb+zKheGBQF3t9paXdmH72lXu0r31lEU8sKuTyz4zSbFkiIiICQFNrO99+bClRET5uOXcaj1zuvI4kA5Hr4LZX13Zr0/9uKCffdzIXzbuU4Wn+Nac1sU9oGtTDOPvb0JZtbCyrZ8HmCq+jiIiISJD4xb9XsXJ7DbedN42spGiv48ggcMTIVFJjI3l9dSnNbVp7L5Sp2OtHGa0lJMdG8ND8LV5HERGRIGZmYWa21Mz+HXg80swWmNkGM3vCzPp2ZjHpN/9cuo1HFxRw5WdHc/yETK/jyCARHubjxEmZ1De38d76cq/jSB9SsdePwujgSzNzeWVlCcXVjV7HERGR4PVdYHWnx78F/uCcGwNUApd5kkp61fqSWq5/djmzRqRy7YnjvI4jg0xWUjSHDk9h5fYaNpbVeR1H+oiKvX72lSOH0+Ecjy4o8DqKiIgEITPLAU4H7gk8NuB44OnAJg8CZ3mTTnpLXXMb33hkCXFRYfz5ghlaZkE8ceSoVIYkRPHaqhLCEjK8jiN9QH9Z+tHixfn8+IYbSG0p447XV/GVK6/l2ut/4nUsEREJLn8EfgB0BB6nAVXOubbA4yIg24tg0js6OhzXPLGMTeX13H7+DDITdZ2eeCPc5+PUKVk4B+lnfo+29o797yQDioq9frRrls7PHTmDNl8kYYd/ifIqnTYXERE/M/s8UOqcW9zD/a8ws3wzyy8rK+vldNJbbn9jPa+uKuGG0yYye0y613FkkEuOjeT4CUOIzpnMH15f53Uc6WUq9jyQnRzDsKRoFm+tpAMtwSAiIp+YDZxpZluAx/EP37wdSDazXcsl5QDbutrZOXeXc26mc25mRoaGZAWj/ywv5vY31nPOYTlcOnuE13FEABiflUDtR6/wt7c38u46fVEUSlTseWTmiFTqmtsojcjyOoqIiAQJ59z1zrkc59wI4HzgTefchcBbwDmBzeYBz3sUUbopN284ZrbbLXLISP7v/v/SvH0Nt375cHw+3x7baB1e8Url63cxbkgC335sKVt31nsdR3qJFlX3yIi0WNLjIylsH05Hh8Pn0x93ERHZqx8Cj5vZTcBS4F6P88h+FBUW7LbAdV1TG0/kF+JwnH/8qcRfdMZe99Xi1uIF19bM3RfP5My/vs/lD+Xz7DdmEx+lUmGg05k9j5gZM4en0hAWz6urSryOIyIiQcY597Zz7vOB+5ucc7Occ2Occ+c655q9zifd19LWwfMfbaO5rZ2507L1AVqCVl5aLH+94FA2ltVz9RPL6OhwXkeSg6Riz0Njh8QT3d7AHe9sxDn9MomIiISa9g7Hi8uL2VnfwumHDCUjIcrrSCL7NHtMOj8+fSKvrSrhj5qwZcBTsechn8/Ibd7KR4VVvLe+3Os4IiIi0oucc7y5ppSCigaOnzCE4WlxXkcS6ZZLjh7BuYfl8Kc3N/D04iKv48hBULHnsazW7eSmxvDbl9foVLmIiEgIWbilglXFNcwakcqUYUlexxHZN/vfhEE+n49bzp9J45ZlXPv4YmJGHtrlZEK7brl5w71OL3uhQeMe8+H43knj+e7jy/jXx9uZO13r5IqIiAx0cVOO58NNFUzMSuDIUalexxHZP9ex26RCAM1t7Ty9uIjIC27inMNyGJIQ3eWumlQoeOnMnscWL87nmTtvIb69lh8+Op+LrryGa6//idexREREpIdeXbmDtFO/S25KDHMmZmo5BRmwosLDmDs9m6jwMJ5ftp2axlavI8kB8qTYM7MtZrbczJaZWX6gLdXMXjOz9YF/U7zI1t9a2o0ZZ1/JCYeNp8kXg+/w8ymvqvM6loiIiPTAfzeU861Hl9KyYz2fnzqMMC2tJANcfFQ4Z00fRnuH45/LttHU2u51JDkAXp7Z+5xzbrpzbmbg8XXAG865scAbgceDRl5qLLkpMSzcXEEbYV7HERERkQO0tKCSyx/KZ2R6HKVP3UhkuAZQSWhIi4/ijKnDqGls44WPttPW3uF1JOmmYPorNBd4MHD/QeAsD7P0OzNj9ph0GlvbKYwa4XUcEREROQCri2u45P5FZCRE8Y/LZtHRpFE6ElqyU2I4eXImxdVNvLRiB+2aWHBA8KrYc8CrZrbYzK4ItGU654oD93cAmd5E805mYjTjMxMojMpjc3m913FERESkG7aU13PRvQuJiQjj4cuOYEhi15NYiAx0YzMT+Nz4DDaX1/P66hKtEz0AeFXsHeOcOxQ4FfimmR3b+Unn/z+ny/97zOwKM8s3s/yysrJ+iNq/PjM2HR+Onz6/Qr9AIiIiQa6osoEL71lAh3M8/LVZ5KbGeh1JpE9NzUnmqNFprNlRyzvryvR5Nch5Uuw557YF/i0FngNmASVmNhQg8G/pXva9yzk30zk3MyMjo78i95u4qHBGNm3gvfXl/Ovj4v3vICIiIp7YVtXI+Xd9SG1TKw99dRZjhiR4HUmkXxw+PIVD85L5qKiaBZsrvI4j+9DvxZ6ZxZlZwq77wEnACuAFYF5gs3nA8/2dLVgMayliak4Sv/z3Kqo1xa2IiEjQ2V7VyPl3zaemsZVHvnYkU7K1aLoMHmbGMWPSmTQ0kQWbK0g47EyvI8leeHFmLxN438w+AhYCLzrnXgZuBk40s/XACYHHg5IBvzrrEHbWNXPrpxa3FBEREW8VV/vP6FU1tPKPy47gkBwVejL4mBlzJgxhdEYcqSdcwTOLi7yOJF0I7+8XdM5tAqZ10b4TmNPfeYLVITlJXHzUCB6cv4Uzpw1j5ohUryOJiIgMejuqmzj/rg+prG/hoctmMS032etIIp7x+YxTpmRxy/3P8INnjITocE6anOV1LOkkmJZekE/53snjyU2J5aonllHTpOGcIiIi/SU3bzhmttstPCGNw77/EJu3l7Punu9y6PDUPbbZdRMZLMJ9PsqevYlDspP41mNLmb9xp9eRpJN+P7Mn3RcfFc4fvjSd8+6cz8+eX8kfvjTd60giIiKDQlFhAbd1upSivrmNp5cUUd/cxhdmZDP0tBf2uf81J43v64giQcO1NnH/JYfzpbvmc/lD+Tx6+RFMzdFZ72CgYi8ILV6cz7wrr/7kcU7USJ5b6vjs+AzmTs/2MJmIiMjgU9fUxrNL/YXeWdOzGZoU43UkkaCTEhfJPy47gi/e8QHz7lvIU18/SjPUBgEN4wxCLe3G9LOv/OR25qknk9hWxY+fW0FhRYPX8URERAaNmsbWwBm9duZOz2ZYsgo9kb3JTIzmka8dQXiYj4vuXUhRpT63ek3F3gDg8xkTG1YA8K1Hl9DU2u5xIhER6Qtmlmtmb5nZKjNbaWbfDbSnmtlrZrY+8G+K11kHg8qGFp5aXERTaztfmJFNtgo9kf0anhbHQ1+dRX1zG1+5ZwElNU1eRxrUVOwNENGuiVvOm8ZHRdVc98zHOOe8jiQiIr2vDbjWOTcJOBL4pplNAq4D3nDOjQXeCDyWPhSRnsfTi4to73B88dAcspKivY4kMmBMHJrIg1+dRVltMxfc/SHldc1eRxq0VOwNICdPzuJ7J43jn8u2c8c7G72OIyIivcw5V+ycWxK4XwusBrKBucCDgc0eBM7yJuHgsGJbNZlf/g0GfPHQbDISoryOJDLgzMhL4f5LZ7G9qomv3LOAyvoWryMNSir2Bohdk7YsfOpvZLTs4Hf/WcPp3/4V117/E6+jiYhIHzCzEcAMYAGQ6ZwrDjy1A8j0KFbIW7Slggvu/hDX2sw5h+WQFq9CT6SnZo1M5Z55M9lUXs9F9y2gulFLifU3FXsDxK5JW2acfSXnnjSbIYnRrEucweYareUjIhJqzCweeAa4yjlX0/k55x/H3+VYfjO7wszyzSy/rKysH5KGlldX7uAr9ywgPT6KHY/+kOTYSK8jiQwM5tvrmpPHjM2g8LGfsLxgJxP+70/4omL32CY3b7jX7yBkaemFASgizMcZU4fx5OJClsfNYENpHWOGxHsdS0REeoGZReAv9B5xzj0baC4xs6HOuWIzGwqUdrWvc+4u4C6AmTNn6uLuA/DYwgJueG45h+Qkc/8lh5P2fRXLIt3mOnZbl7IrG8vqeGl5BEfc+C/mTh9GVHjYJ89pXcq+ozN7A1R8dDhfmJENOC66d4GmthURCQFmZsC9wGrn3G2dnnoBmBe4Pw94vr+zhSrnHLe/vp7rn13OseMyeOzyI0iN0xk9kd42OiOeUyZnUVLTxHNLt2l2+X6iYm8AS4mNZGr9Uuqa27jo3oWU1WqmIxGRAW42cBFwvJktC9xOA24GTjSz9cAJgcdykNo7HD95fgV/eH0dXzw0h7svnklspAY9ifSVsZkJnD51KOV1LYH1K9u8jhTyVOwNcPEdddx/yeEUVzdy4T0fquATERnAnHPvO+fMOTfVOTc9cHvJObfTOTfHOTfWOXeCc67C66wDXW1TK5c/lM/DHxbw9eNGc8u5U4kI08cikb42Kj2eM6cNo7qhlaeXFFHTpElb+pL+qoWAmSNSuW/e4RRWNHL+XfMp1eKVIiIie1Wws4Ev3vEB76wr45dnTeG6UyfgH0ErIv0hLzWWs2Zk09DczhOLConMHO11pJClsQoh4ugx6Txw6eFc+sAijv/1v5lSk0+U+99ZvvTkeG79zS89TCgiIuK9hZsr+PrDi2lr7+DBS2dxzNh0ryOJDErZyTGcNzOH5z/aTuYFv+W1VSWcOEmryvQ2FXsD3K7193YZF5bEsuiprM48ni/MyCYpJgKAZc/e4VVEERERzznnuOe9zdz88hqGp8Zyz7yZjMrQTNYiXkqLj+JLM3P565OvcMU/8rnhtIlcdsxInWnvRSr2Brhd6+91tuLXP6F59iU8saiQudOHkZkY7VE6ERERb+TmDaeosAAAi4oj/bSriB13FA1rP+Dt/9zO6O/Xe5xQRADiosIpeex6Lr/vfW56cTX5Wyr57TlTPzlhIQdHxV4I8tUUc+7MXP65bBvPLCni9EOGeh1JRESkXxUVFnDbq2sprm7k5RU7qGtu45gx6Uw//mLsG/P2u7/W/RLpP66tmTsuPIx73t/Eb19ey8o/v8dfLziUqTnJXkcb8DRBS4hKjYvkvJm5JMVE8MJH29kRoYJPREQGkbAI3t9QzlP5RTjgnMNymJGXouFhIkHK5zOuOHY0T/7fkbS3O754xwf86Y31tLR1eB1tQFOxF8Lio8I557AcslNiWBs7mRueW05zmxawFBGR0PZxURVDL/kji7dWMnlYIhcekcfQpBivY4lINxw2PJUXv/MZTpqcxW2vreO0P73Hoi1abaanVOyFuKjwMM6alk1u8xYeWVDAl+78kOLqRq9jiYiI9Lqddc1c/+xy5v71v/ii4pk7bRhzJmYSFR7mdTQROQApcZH89YJDue+SmTS2tHPu3+fz/ac+YluVPsMeKBV7g4DPZ4xq2sAdFx7K+pJaTv/T+7y8otjrWCIiIr2itb2DBz/YwudueZsn8wv56uyRbL/nSkakx3kdTUQOwvETMnn16mO54thRPL9sO5/7/dv87PkVWlP6AGiClkHk1EOGMjYzgaueWMrXH17C56cO5cenTyIrSbN1iojIwNPa3sGzS4r485sbKKpsZPaYNG48YzJjMxP4aUuD1/FEpBfERYXzo9MmcsnRI/jzmxt4ZEEBjy8q5Kzp2Vx01HCmZCd5HTGoqdgbZMYMiee5b8zmjrc38pe3NvDWmlL+77jRfPWYkcRH6X8HEREJfg0tbTy3dBt/f2cjhRWNTM1J4hdzJ/O58UM0AYtIiBqWHMNvzj6Erx83ir+/s4l/Lt3GE/mFTM9N5vzDczl5chYpcZFexww6+nQ/CEWE+fjOnLGcNT2bm15cxW2vreP+/27mK0cO5ytHDte6fCIiEpS27qznoflbeTK/kNqmNqbmJPHzM1XkiQwmw9Pi+M3Zh3D9aRN4ZnER//hwK9c9u5wf/3MFR49J5/RDsjh2XIYmZQpQsTeI3X7Lb2iuqmNGWCIFrSP58xst/PmNdURWbmVEdCMpbRVEO/+Y6PTkeG79zS89TiwiIoNNdUMrLy4v5p9Lt7FwSwXhPuPUQ4Yy76jhHDZcSymIhATzHdTvcvSw8USPPZI3dh7Du+vKAGjdWUjjlmU0bVlGU8Fy3F6Gdufk5lFYsLXHrx3sVOwNYuVVdUw/+8pPHlc1tLByew35TbWsi/GPf06KiSA7OYaiTfm8uaaEUenxDE2O3uvMZtde/xPKq+r2aFexKCIi3VVW28wbq0t4bVUJ760vp6W9g9EZcXzvpHGcOzNXI1BEQo3r4LZX1/Z492tOGs+vH3gB5xzldS0UVjZQkBbLtow82g47AwPS46PISoomKymaoUnRJMdEYGZcc9L43nsfQUjF3iCxeHE+8668ere2Jcs+YvrZ/3ucHBvJ7DHpfHTPdXzpx3+lsLKRosoGNpXX0RQzjq8+kP/JtjERYSTHRpAUE0FybAQpsZGkxEWyqDGTETM/T0xkGLGR4STFRJAQHc7Hz/19j0xdFYYqCkVEBp/mtnaWFlTxwYZy3ttQzrLCKpyDtupSGtZ9QP3Kt9haspE3gW97HVZEgpaZkZEQRUZCFIfmpdDW0cGO6iYKKxoprmlk7Y5alm+rBiA63EdmUjRJR5/Pu+vKmJabTFJMhMfvoPep2BskWtptt7N4APMXfq3LbQ1Ii48iLT6K6bnJACx67h6u/eF1bCyrp6y2maqGFl59bwFl5VBsEbRaBK0WSWvUcArWl+92PJ9BVPxRXPnwYqZkJzE1J4lDspP2OLMIsOzZO3rvTYuISFBqam1n5fZqFm2p5L8bylm0pYKm1g58BofkJHPVnHF8/4KTufnh/2A2G/j+Ab9GqH9bLyL7F+7zkZMSS05KLAAdzlFZ30JxdRM7aprYUd1E0jEXcPF9CwEYlR7HIYHPqVNzkpk8LJG4AT6B4cBOL/0mwrVy2PBUDhue+knbun/fvUex9rfrvsalv7yTppZ26lvaqGpspaqhla0bSlm5vYb/rNjxybbRCbPZvryYzMRoshKjGZIY1W/vR0RE+kdHh6OgooGPiqpYWlDF0oJKVhXX0NruABiXGc/5h+dx9Og0jhiV9sk361eVbdb1eCLSq3xmn5zQ2LVkw7Wfn8G7K7aytKCS5duqWbi5gueXbQfADMZkxHNIThJTs5M4JCeZSUMTiYns+nKmYKRiT3qV4R/iGRMRRkpcJDkp/vb4j5/iwR9cSnVDKyu2V/NxUTX3vfAOJTUJrC/1D+U0g9j4I7j+2eVMz01i8rAkRmfED6hfKBGRwayqoYWNZfWsK6ll1fYaVhXXsKa4hvqWdsDfP0zNSeJrnxnFjNxkZuSlkJGgL/pExDuupYFjxqZzzNj0T9pKa5tYsc3/eXV5UTXvrivn2SXbAAjzGWOHxPtHquUkM2VYImMzE4J2CbOgS2VmpwC3A2HAPc65mz2OJHTvmr/uSIqNYPaYdGaPSefDJ/7C9FOPoaGljR01TZRUN7N+/U5e/Hg7jy0s+GSf7OQYRg+JZ2hiNJmJUWQkRpMWF0litP96wMTAdYGJ0RFEhvt64+2KiASdYOgfnXNUNrSyvaqRwooGNpXXs7m8nk1ldWwur6eyofWTbROiwqkpXE1twWpaSjfTUrKR1rItrHEdPNnfwUVE9qabM4GGxacRmTWGyKFjqcsaw8qssTwZ+78F3YclRTMmM4FxQ+IZMySevNRYclNjGZoUTXiYd59Pg6rYM7Mw4K/AiUARsMjMXnDOrfI2mRzINX9d2VexGBsZzqj0eEalxxPz0ZPc//vb2LyznrU7atlQWseGUv+HiDXFNZTXNdPh9vFC7a1EWgfhro3/b+9sY+yoyjj++8+9d3fbbnfbtaUtpQrFSlSCtWKpRI2RioUYKgYVo4ACaXxpFBNjSkgQISbiCx80visREYEIokiKpSqEL1IELLRQsEuDtmtppbUvvNjt3fv4Yc5dZm/v3b2tuzNz7z6/5GRmzjyz93/OnH1mnplzzhSsTNEOM60k3rX0rfRMiQPCnq4i07tK9EwJy0TQOK2j4N2GHMfJHVlcH/+w+XlWrbmOl62DwvTZFHtmUZj+GqLSyJkwywf3UN47wOG9Axz+zwDlPTs4vGc75f27AI55hj0fc+c4Tioc40ygZsbB/5a5/kuX880f3czWXQfZuvtFbt62h0PlyrBdIRLHz+hiwcypzO3pYnZPJ7O7Ozmup4vjpneyoG8q82dM3DcBcxXsAUuBfjPbBiDpNmAl4MFei3M0wWIUiZNnd3Py7G4gnrWzb9+L9AGGGAyTwTz17HMsv/iLDJYrHAppw5/XsujM9yXyhhjY+S/ueGgrZRUxjd4lNBJ0FCNKhYiOQrw8cGAfNjREhCEqyCp0FiPecPJJFCIhiYJIrIsoivuFR1LIJ86XiCIRBfuqTZQ8PnFsFLYlYWYMDhnr/vQALx06jFUVKV52dJR4+5LFFCNRiCJKhfi3S4UoXob8YiHWU4vVCaLXrlvPy68cQthw6p7SyUfOP49iJIqJ36huF8NvVJelsCxEwiweHF0xwwyGKha2Y6dZqe6v5yMndAAACdZJREFUJNZHsR0yw8z45W13cODlQ3E5EBEVeqd2cNlFH6OjGMWpEA2vlwrRsK5iQXQUIoqhDNX6agcsnNTkubXafSPsqzZHHlfPplI9LxVjKJyrSiU+L5WKMVTNrxgnzppGKcMnm21A6tfHOx7djt70fuZO6WR6V5HuzuLwsrurSG9XiRlTO+goLmr4NzxgcxynXZFEz5QSr/Q/zOr3JvygIoo9syn2zqE4Yy7F3jkcmDGH/t65FLr7KEybiYqvzvpZ+cej/PPWqydMZ96CvfnA9sT2DuCMjLQ4GdDoDeCl1x756YZNay5nYQgIh4/f+gDLL/vEiLwfrLmWz3z9pwCUh+Ig8FffupJTTl1MWUWGKFJWnJ5/YS99x80dEUgN7t3HwtPOYMgsBBywf/cAg+VKuMGNJyDYPvAvDg9VAGGEwHRwkFJHJyYN54M4XB6iUCyCqiFU7DQKhRIVsxDE1K8j2TwKUwpE0cjAcvfef/PvR/qpJEIzoohSqZNypTI8GcLR8Vqo87Bp412bjuFvTSSvh6lH5m64+dFj+mvV4Dy5DSASQaBGLEYE0FW72qC6NpgamUfNypFB18jAbGSw1qi95IW/XPle5vVO3JPLSUDq18cbPrqY3qnLuGHdlon8GcdxnNbmKN8MmhmHyhVeOlTmpcEhvn/TFcDEBXuyHN0hSLoAWGFml4fti4AzzGx1wmYVsCpsngIc+xcYY2YBL4xplS9aTXOr6QXXnBauOR3aRfPrzGx2FmKyppnrY8gf72tkklZsR0eDl691aeeygZevlUmrbA2vj3l7szcALEhsnxDyhjGzHwM/Hq8flPSImZ0+Xn8vDVpNc6vpBdecFq45HVxzWzDm9RHG/xqZpN3PiZevdWnnsoGXr5XJQ9nyNoDir8AiSSdJ6gAuBO7OWJPjOI7jZI1fHx3HcZyjJldv9sysLGk1sI54aukbzezJjGU5juM4Tqb49dFxHMc5FnIV7AGY2VpgbYo/OSHdXSaYVtPcanrBNaeFa04H19wGZHB9rKXdz4mXr3Vp57KBl6+VybxsuZqgxXEcx3Ecx3Ecxxkf8jZmz3Ecx3Ecx3EcxxkHJkWwJ2mFpGck9UtaU2d/p6Tbw/4Nkk5MX+UIPQsk3S/pKUlPSvpCHZv3SNovaWNIE/eBjiaR9JykTUHPI3X2S9J3Qj0/IWlJFjoTek5J1N9GSQckXVFjk3k9S7pR0m5JmxN5fZLWS9oaljMbHHtJsNkq6ZKMNX9T0tPh3N8laUaDY0dtRylrvkbSQOL8n9vg2FF9TMqab0/ofU7SxgbHpl7PjXxb3tuz8yqSrgv/wxsl3Sfp+Kw1jSfN+qlWRdKHw/9eRVJbzH6Ylf9Ng3o+vl1o5l63lZHUJelhSY+H8n01MzFm1taJeCD7s8BCoAN4HHhTjc1ngR+G9QuB2zPWPA9YEtanA3+vo/k9wD1Z12+NpueAWaPsPxe4l/g71MuADVlrrmknzxN/pyRX9Qy8G1gCbE7kfQNYE9bXANfXOa4P2BaWM8P6zAw1nw0Uw/r19TQ3045S1nwN8KUm2s6oPiZNzTX7vw1cnZd6buTb8t6ePY04Dz2J9c9Xr53tkpr1U62agDcSf3/xAeD0rPWMQ3ky878plW9UH9/KqdH1IGtd41g+Ad1hvQRsAJZloWUyvNlbCvSb2TYzGwRuA1bW2KwEbgrrdwBnSVKKGkdgZjvN7LGwfhDYAszPSs84shL4hcU8BMyQNC9rUYGzgGfN7B9ZC6nFzB4E9tZkJ9vsTcAH6xz6fmC9me01s/8A64EVEyY0QT3NZnafmZXD5kPE3wnLDQ3quRma8TETwmiagw/7CHBrGlqaYRTfluv27LyKmR1IbE4D2mrgf9791P+LmW0xs2ey1jGOZOZ/0+D/uC7lnja+1wUg3Ou+GDZLIWXiLydDsDcf2J7Y3sGRjWnYJjj5/cBrUlE3Boq7lL6V+IlALe8Ir4fvlfTmVIXVx4D7JD0qaVWd/c2ci6y4kMY3xXmrZ4A5ZrYzrD8PzKljk+f6vpT4LW89xmpHabM6dOm6sUH3wrzW87uAXWa2tcH+TOu5xre1enueVEj6mqTtwMeBzIcQTCCj+SknH7hfaAPGuNdtWSQVwlCK3cQPKzMp32QI9loWSd3AncAVNU9TAR4j7nL4FuC7wG/T1leHd5rZEuAc4HOS3p21oGZQ/IHi84Bf19mdx3oegcV9BFrm6bqkq4AycEsDkzy1ox8AJwOLgZ3E3SJbhY8x+lu9zOp5NN/Wau25HZH0R0mb66SVAGZ2lZktIP4fXp2t2qNnrPIFm7H8VG5ppnyOkxfGuNdtacxsyMwWE/cQWCrp1Cx05O47exPAALAgsX1CyKtns0NSEegF9qQjrz6SSsSN/xYz+03t/uQ/hJmtlfR9SbPM7IU0ddZoGgjL3ZLuIu5e8WDCpJlzkQXnAI+Z2a7aHXms58AuSfPMbGfoCru7js0A8ZjDKicQj9PIDEmfBD4AnBVu6o+giXaUGsk2IeknwD11zHLXroMf+xDwtkY2WdVzA9/Wku25XTGz5U2a3kL83b+vTKCccWes8jXjp/LMUZy/diB3/tdpnrHuddsFM9sn6X7ioQepT7YzGd7s/RVYJOmk8AbnQuDuGpu7gerMbhcAf87SwYexNj8DtpjZDQ1s5lbHFUpaSnwuMwtQJU2TNL26TjzIvbZB3w1crJhlwP5E160safgGJG/1nCDZZi8BflfHZh1wtqSZofvh2SEvEyStAL4MnGdmLzewaaYdpUbNmNLzG2hpxsekzXLgaTPbUW9nVvU8im9rufY8WZG0KLG5Eng6Ky0TQTN+yskVefS/ThM0c6/bykiarTCbr6QpwPvIyl+mORtMVol4Fsi/E8/YdFXIu5bYmQN0EXfh6wceBhZmrPedxN2YngA2hnQu8Gng08FmNfAk8cxTDwFnZqx5YdDyeNBVreekZgHfC+dhEzmYCYx4goE9QG8iL1f1TByI7gQOE49HuIx4TOmfgK3AH4G+YHs68NPEsZeGdt0PfCpjzf3EYyuqbbo6A+7xwNrR2lGGmm8ObfUJ4huIebWaw/YRPiYrzSH/59U2nLDNvJ5H8W25bs+eRpzDO4kfDDwB/B6Yn7WmcS5fXT/VLon4odUO4BCwC1iXtaZxKFMm/jelstX18e2QGl0PstY1juU7DfhbKN9mGsyMnUZSEOQ4juM4juM4juO0EZOhG6fjOI7jOI7jOM6kw4M9x3Ecx3Ecx3GcNsSDPcdxHMdxHMdxnDbEgz3HcRzHcRzHcZw2xIM9x3Ecx3Ecx3GcNsSDPcdxHMdxHMdxnDbEgz3HcRzHcRzHcZw2xIM9x3Ecx3Ecx3GcNuR/3GdI1XiUdUsAAAAASUVORK5CYII=\n"
          },
          "metadata": {
            "needs_background": "light"
          }
        }
      ]
    },
    {
      "cell_type": "markdown",
      "source": [
        "### Quantile transfrom"
      ],
      "metadata": {
        "id": "IV-s2rsvwzYb"
      }
    },
    {
      "cell_type": "code",
      "source": [
        "transformer = QuantileTransformer(n_quantiles=100, random_state=0, output_distribution='normal')\n",
        "transformer.fit(train_x[num_cols])"
      ],
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/"
        },
        "id": "lZR_IDtPvSQx",
        "outputId": "a833e52e-06f7-4281-d990-8caf93e4da2f"
      },
      "execution_count": 92,
      "outputs": [
        {
          "output_type": "execute_result",
          "data": {
            "text/plain": [
              "QuantileTransformer(n_quantiles=100, output_distribution='normal',\n",
              "                    random_state=0)"
            ]
          },
          "metadata": {},
          "execution_count": 92
        }
      ]
    },
    {
      "cell_type": "code",
      "source": [
        "rng = np.random.RandomState(304)\n",
        "original_data = rng.lognormal(size=(1000,1))\n",
        "transformer = QuantileTransformer(n_quantiles=100, random_state=0, output_distribution='normal')\n",
        "transformed_data = transformer.fit_transform(original_data)\n",
        "\n",
        "fig, ax=plt.subplots(1, 2, figsize=(15, 3))\n",
        "sns.histplot(original_data, ax=ax[0], kde=True, legend=False)\n",
        "ax[0].set_title(\"Original Data\")\n",
        "sns.histplot(transformed_data, ax=ax[1], kde=True, legend=False)\n",
        "ax[1].set_title(\"Transformed data\")\n",
        "plt.show()"
      ],
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/",
          "height": 227
        },
        "id": "d6ymy-4gw9xL",
        "outputId": "25640d4b-937d-4afa-b0ee-4679e29f5a75"
      },
      "execution_count": 119,
      "outputs": [
        {
          "output_type": "display_data",
          "data": {
            "text/plain": [
              "<Figure size 1080x216 with 2 Axes>"
            ],
            "image/png": "iVBORw0KGgoAAAANSUhEUgAAA3sAAADSCAYAAADzNtlYAAAABHNCSVQICAgIfAhkiAAAAAlwSFlzAAALEgAACxIB0t1+/AAAADh0RVh0U29mdHdhcmUAbWF0cGxvdGxpYiB2ZXJzaW9uMy4yLjIsIGh0dHA6Ly9tYXRwbG90bGliLm9yZy+WH4yJAAAgAElEQVR4nOzdeXxU5b3H8c9vJpONbEAWkhAEAVF2BK11qVq17nWpVXutorX11i731mpbqd1ta9ur3e+1pbXuVty11lqrFVdAEmQTZJEtgUACZCVkm3nuH3OCARIIIZMzSb7v12temXnmzJlvApknv3Oe8zzmnENERERERET6l4DfAURERERERKTnqdgTERERERHph1TsiYiIiIiI9EMq9kRERERERPohFXsiIiIiIiL9kIo9ERERERGRfkjFnkgPMrNvm9mfe3rbLuzLmdmYntiXiIhIbzGzPDN73czqzOwuv/O0Z2Yjvf41oYvb32dmP451LpFDoWJPpBNmdq2ZLTOzBjPbamZ3m1nWgV7jnPupc+7zXdn/oWx7OMxsrpk1eh1prZmVmNmtZpZ0CPtQMSki0s+YWX27W8TMdrd7fFUvxbgB2A5kOOdu7qX39J3XN8f8bwARFXsiHTCzm4GfA98AMoETgCOAf5lZYiev6dKRP598xTmXDuQDNwNXAi+YmfkbS0RE/OKcS2u7AZuAC9u1Pdy2XYz7tyOAFc45d6gvjPN+VyQuqNgT2YeZZQA/BL7qnHvROdfinNsAXA6MBD7rbfcDM3vCzB4ys1rgWq/toXb7usbMNprZDjP7rpltMLMz273+Ie9+21CRmWa2ycy2m9lt7fZzvJnNM7NqMys3s993VnQeiHNul3NuLvBJ4KPA+Qfbv5m97r18iXe09wozG2xmz5tZpZlVefeHH2oeERGJP2Z2mpmVmdm3zGwrcO/BPve9M1W3m9lb3kiSl8ws23su2esrd3j9zEJv+OZ9wEzgm17/cqaZJZnZr81si3f7ddtIlE5y/cDMHvf2X+eNyDnKzGaZWYWZlZrZJ9rlzDSze7y+brOZ/djMgt5zQTO70+uD1+H1kQf4OU0zs0Xe+84Bkts91+nPy8x+ApwC/N77vn/vtf/Gy9s2CueUHvjnlAFOxZ7I/k4k+oH9VPtG51w98AJwVrvmi4AngCzg4fbbm9l44P+Aq4ieUcsECg/y3icD44AzgO+Z2TFeexi4CcgmWqSdAXzpEL+v9t/LJqCYaGdzwP075z7mbTPFO9o7h+hnx71Ej8iOAHYDv+9uHhERiTvDgCFEP+dvoGuf+/8BXAfkAonALV77TKJ9YBEwFPgisNs5dy3RvvMXXv/yMnAb0dE0U4EpwPHAdw6QC+BC4EFgMPAu8E8vbyHwI+CP7V5/H9AKjAGmAZ8A2oZTfgG4wGufAVzW2Q/HOyD6jPe+Q4DHgU+126TTn5dz7jbgDaKjbtKcc1/xXrPQ+76HAI8Aj5tZMiKHQcWeyP6yge3OudYOniv3nm8zzzn3jHMu4pzbvc+2lwF/c8696ZxrBr4HHGyYyg+dc7udc0uAJUQ7OpxzJc65+c65Vu8s4x+BUw/9W9vLFqIdyiHv3zm3wzn3pHOuwTlXB/ykB/KIiEj8iADfd841ef1SVz7373XOrfb6w8eIFi4ALUSLvDHOubDX59R28r5XAT9yzlU45yqJjrS5urNcXtsbzrl/ev3240AO8DPnXAvwKDDSzLLMLA84D/iaN9KlAvgV0UsbIDqC59fOuVLn3E7gjgP8fE4AQt72Lc65J4gWa0D3+knn3EPe61qdc3cBSUQPAIt0m8Y6i+xvO5BtZgkdFHz53vNtSg+wn4L2zzvnGsxsx0Hee2u7+w1AGoCZHQX8kuiRxlSiv7slB9nXwRQCb3dn/2aWSrSDPIfokVSAdDMLOufCh5lLRET8V+mca2x70MXP/Q77MKJnv4qARy060dlDwG1eMbavAmBju8cbvbYOc3m2tbu/m+gB23C7x3hZCogWaOX24SXrAT7sq/fqt/fJ0VHOzftca7hn++70k2Z2C3C9t28HZLD3AWaRQ6YzeyL7mwc0AZe2bzSzNOBc4JV2zQc6U1cOtL+eIYXokc3uuBt4HxjrnMsAvg10e3IVMysCphMdRtKd/d9M9GjjR7zt24Z6asIXEZH+Yd/+rduf+96Zrx8658YTvVTiAuCaTjbfQnToY5sRXltnuQ5FKdH+Pds5l+XdMpxzE7zny4kWpe3fuzPlQKHZXhOdtd/+YD+vvb4P7/q8bxI9uzjYOZcF1KB+VQ6Tij2RfTjnaogOG/mdmZ1jZiEzG0l0SEoZ0SOUXfEEcKGZneiN7f8B3f/QTgdqgXozOxq4sTs7MbNUMzsVeBZ4h+g1iF3Z/zbgyH3y7AaqzWwI8P3u5BERkT6j25/7Zna6mU3yJkKpJTqsM9LJ5n8FvmNmOd4EL98jeibwsDnnyoGXgLvMLMPMAmY22usXIdrP/5eZDTezwcCtB9jdPKLX/v2X93fCpUSvL2xzsJ9XR/1qK1AJJJjZ94ie2RM5LCr2RDrgnPsF0bNbdxLtmBYQPSJ4hnOuqYv7eA/4KtHrBcqBeqCC6FHFQ3UL0Qvf64A/AXMO8fW/N7M6op3Lr4EngXOcc22d7cH2/wPgfm8Wtcu9faQQHdI6H3jxUL8hERHpUw7nc38Y0QOgtcBK4DU6P3D6Y6ITiC0FlgGLvLaecg3RyWNWAFVernzvuT8Rndxlife+T3W0AwDvWvxLgWuBncAV+2x/sJ/Xb4DLvJk6f+u974vAaqLDQRs58KUiIl1i3VjWRES6wRsGWk10qOR6v/OIiIiISP+mM3siMWRmF3pDJwcRPUu4DNjgbyoRERERGQhU7InE1kVELyzfAowFrnQ6nS4iIiIivUDDOEVERERERPqhmJ3ZM7MiM3vVzFaY2Xtm9t9e+xAz+5eZrfG+Dvbazcx+a2ZrzWypmR0bq2wiIiIiIiL9XSyHcbYCN3trqpwAfNnMxhOdxvYV59xYouuVtU1rey7RYW5jgRuIrvslIiIiIiIi3ZAQqx17a5mUe/frzGwlUEj0GqbTvM3uB+YC3/LaH/CuZ5pvZllmlu/tp0PZ2dlu5MiRsfoWREQkjpSUlGx3zuX4naOvUB8pIjIwHKh/jFmx1563IPU0omuV5bUr4LYCed79QvZeT6TMa+u02Bs5ciTFxcU9HVdEROKQmW30O0Nfoj5SRGRgOFD/GPPZOL21xZ4Evuacq23/nHcW75BmiDGzG8ys2MyKKysrezCpiIiIiIhI/xHTYs/MQkQLvYedc095zdvMLN97Ph+o8No3A0XtXj7ca9uLc262c26Gc25GTo5G84iIiIiIiHQklrNxGnAPsNI598t2Tz0HzPTuzwSebdd+jTcr5wlAzYGu1xMREREREZHOxfKavZOAq4FlZrbYa/s28DPgMTO7HtgIXO499wJwHrAWaACui2E2ERERERGRfi2Ws3G+CVgnT5/RwfYO+HKs8oiIiIiIiAwkvTIbZ19086zvsr26fq+27Kw07rrjdp8SiYiIiEh7U6ZNp7y886t+8vPzWfJuSS8mEokvKvY6sb26nqmX3rhX2+KntM67iIiISLwoLy9n1oNzO33+jqtP67UsIvEo5ksviIiIiIiISO9TsSciIiIiItIPqdgTERERERHph3TNnoiIiIj0UcbW2kbKq3dT19QKQGZyiIKsFLLTEn3OJuI/FXsiIiIi0qdEIo4nF5WRfPEPmLOwFIBQ0HAOWiMOgJy0JIKjjsM5h1lnq4GJ9G8q9kRERHqZmf0FuACocM5N9NqGAHOAkcAG4HLnXJVF/0r9DXAe0ABc65xb5EdukXhQurOBWx5fwoL1OyES5qxj8hgxJJW05AScc9Q1trJxRwPvllaRdOoNzLx3IT//1CTyM1P8ji7S63TNnoiISO+7Dzhnn7ZbgVecc2OBV7zHAOcCY73bDYDWAZIBYcq06eQOK9jrNmzyxzj59ueZv2ozTW/eR/kDNzG+IIO05Oj5CzMjIyXEpOGZXH3CETTPe5iF63dywW/fZHFptc/fkUjv05k9ERGRXuace93MRu7TfBFwmnf/fmAu8C2v/QHnnAPmm1mWmeU75zpfSVqkH9h3Db112+t5YdlW0pMTuHhqIZnn/oRbzn+u09ebGa2r5vL8E7O59t53+Mzs+fzh6umcelROL6QXiQ86syciIhIf8toVcFuBPO9+IVDabrsyr01kwNhctZsXlm1l6KBELp9eRGZKqMuvHZ2TxlM3nsSo7EH854PFlGzcGcOkIvFFZ/ZERETijHPOmZk71NeZ2Q1Eh3oyYsSIHs8l4ocd9U08t3QLGckJXDytkJRQsMuvraquJndYQfRBcjrJ536LS3/9Mo0v/AxXsxWA/Px8lrxbEovoIr5TsSciIhIftrUNzzSzfKDCa98MFLXbbrjXth/n3GxgNsCMGTMOuVgUiTfNrRH+vqycoNkhF3oAkUh4r6GgtbtbeHRhKUOv+jlXHFdEYkKAO64+rWdDi8QRDeMUERGJD88BM737M4Fn27VfY1EnADW6Xk8GildWbqO6oYXzJg0jI7nrQzc7k5ES4tyJw6hqaObllduIXgor0n/pzJ6IiEgvM7O/Ep2MJdvMyoDvAz8DHjOz64GNwOXe5i8QXXZhLdGlF67r9cAiPgiO/iirK+o5cfRQhg9O7bH9Fg1J5aOjh/L2BzsYubWux/YrEo9U7ImIiPQy59xnOnnqjA62dcCXY5tIJL6U1+wm8SNXUpCZzPQjBvf4/qcfMZgNO3bx2qpKLLXn9y8SLzSMU0RERETihnOOWU8tAwty1vg8AmY9/h4BMz4xfhgOR+JJ12g4p/RbKvZEREREJG78Y/lW5q6qpOXdp8lKTYzZ+2SmhDhxdDbBwom8sGxrzN5HxE8q9kREREQkLtQ3tfKjv63gmPwMWle+GvP3mzw8k8iOjfzo+feob2qN+fuJ9DYVeyIiIiISF/731bVsrW3kxxdPBBeJ+fsFzGie9zAVdU387t9rYv5+Ir1NxZ6IiIiI+G5rTSN/eXM9F08tiMmkLJ2JbF/PpdOGc+9bGyiraui19xXpDSr2RERERKRXTZk2ndxhBXvdZlz7fRqbmvnrd2aSO6yAquqqXstzy9lHYcCd/1zVa+8p0hu09IKIiIiI9Kry8nJmPTh3z+OqXc08uGAjkwszOe3uJwC45fxJvZKlqrqaKeNGEzr2Ep5pPY+//uiLuJ2le22Tn5/PkndLeiWPSE9SsSciIiIivnr7gx0kBIzjRw3p9feORMLMenAuTa1h/vLWBkZf/3MumFyw1zZ3XH1ar+cS6QkaxikiIiIivtla08jaynqOHTGY1ET/zkMkJQSZVpTFB5W7qKxr8i2HSE9SsSciIiIivnnrg+2khIIcO6L3JmXpzNSiLBKDARZu2Ol3FJEeoWJPRERERHyxuWo3ZVW7OW7kYBIT/P+zNDkUZGpRFmsq6tlRr7N70vf5/1slIiIiIgPSwo07SQkFmViY6XeUPaaOyCIUNN7R2T3pB1TsiYiIiEivq6hrZOOOBq+4ip8/SVNCQaYMz2L1tnp27mr2O47IYYmf3ywRERERGTCKN1SRGAwwJY7O6rWZNiKLhIDp2j3p81TsiYiIiEivsvRc1lbUM2l4JkmhoN9x9pOamMDEwkxWb6ujvqnV7zgi3aZiT0RERER6VWjS2QQCxrSiLL+jdGpqURYRB0vLqv2OItJtMSv2zOwvZlZhZsvbtf3AzDab2WLvdl6752aZ2VozW2VmZ8cql4iIiIj4p7xmN8HRJzIhP4NBSf6tq3cwmSkhRucMYllZDQQT/Y4j0i2xPLN3H3BOB+2/cs5N9W4vAJjZeOBKYIL3mv8zs/g7py8iIiIih+XetzaAGdOP8H9dvYOZVjSYxtYICaNP8DuKSLfErNhzzr0OdPWq1ouAR51zTc659cBa4PhYZRMRERGR3tfQ3Mqj72wivHERGSkhv+McVEFWMrnpSSSMP5NIxPkdR+SQ+XHN3lfMbKk3zLPtkE4hUNpumzKvbT9mdoOZFZtZcWVlZayzioiIiEgPeXLRZmobW2ld+YrfUbrELHpdYSArn9fX6O9O6Xt6u9i7GxgNTAXKgbsOdQfOudnOuRnOuRk5OTk9nU9ERMRXZnaTmb1nZsvN7K9mlmxmo8xsgXdt+xwz0wVE0uc457jvrfVMKswkUvGB33G6bGxeOpGGau55c73fUUQOWa9eFeuc29Z238z+BDzvPdwMFLXbdLjXFldKSoqZeeNNe7VlZ6Vx1x23+5RIRET6EzMrBP4LGO+c221mjxG9pv08ote8P2pmfwCuJ3oAVaTPeGPNdj6o3MUvL5/CAr/DHIJgwGhd+SpvpGaxZlsdY/PS/Y4k0mW9embPzPLbPbwEaJup8zngSjNLMrNRwFjgnd7M1hXNYWPqpTfuddteXe93LBER6V8SgBQzSwBSiY6E+TjwhPf8/cDFPmUT6bZ731pPdloS50/OP/jGcaZ19eskBgM8vGCT31FEDkksl174KzAPGGdmZWZ2PfALM1tmZkuB04GbAJxz7wGPASuAF4EvO+fCscomIiISj5xzm4E7gU1Ei7waoASods61rezc6XXtIvFq/fZdvLqqkqs+MoKkhD444XpTPedNGsaTJWXs0iLr0ofEbBinc+4zHTTfc4DtfwL8JFZ5RERE4p03cdlFwCigGnicjpcx6uz1NwA3AIwYMSIWEUW65f63NxAKGled0Hf/X372hCN4ZvEWnluyhc8c33e/DxlY/JiNU0RERDp2JrDeOVfpnGsBngJOArK8YZ1wgOvaNYmZxKP6plYeLy7lgskF5KYn+x2n26YfMZijh6Xz4LyNOKdlGKRvULEnIiISPzYBJ5hZqpkZcAbRSxxeBS7ztpkJPOtTPpFD9uzizexqDnP1R4/wO8phMTOuOuEIVpTX8m5ptd9xRLqkV2fjFBERkc455xaY2RPAIqAVeBeYDfwdeNTMfuy1dXpZhEg8cc7xyIJNHD0snWlFWX7H6baq6mpyhxVAQhIpV9zJJ79+J81v3rvXNvn5+Sx5t8SnhCIdU7EnIiISR5xz3we+v0/zOuB4H+KIHJYlZTW8t6WW2y+eSPRkdd8UiYSZ9eBcAP79fgUrkk7iS5/7LCmhDyebuePq0/wJJ3IAGsYpIiIiIjHxyIKNpCYGuXhqgd9Reszk4ZmEI44VW2r9jiJyUAP+zN7Ns77b4Vp5ixYvYeqlPgQSERER6Qdqdrfw3JItXDKtkPTkkN9xekx2WhL5mcks31LDsSOy+vQZS+n/Bnyxt726nqmX3rhf+7x3Pu9DGhEREZH+4Zl3N9PYEuE/ju/bE7N0ZGJBJv9auY0t1Y0UDk7xO45IpwZ8sSciIiIiPWfKtOmUl5eTfNEPcOEWzpjxhf22qaqu8iFZzxmbl8ZrqytZvqVGxZ7ENRV7IiIiItJjysvLmfm7f/B4SRlnHJPLxCvm7rfNLedP6v1gPSgUDDBuWDoryms59agwye0mahGJJ5qgRURERER61PItNSQGA4zLS/c7SsxMLMggHHGs2lrndxSRTqnY64KWcIR/rdhG6/hzqG5o9juOiIiISPwKJbNmWz1H5aURCvbfPzVzM5LJSU9i+ZYanHN+xxHpUP/9Dewh9U2tPF5SxsryWiLDxvPA/I2s2aYjOCIiIiIdCY6cQWvEMaEg0+8oMTexIIPt9c1sq2vyO4pIh1TsHcTcVRVUNzRz4ZQCQm/+kZy0JF5dVUljS9jvaCIiIiJxJ2HsSQwZlEheRpLfUWJu3LB0EgLGe5tr/I4i0iEVewdQs7uFdZW7mDI8i1HZg7DmXZxxTC6NLWHe/mCH3/FERERE4sraijqCuWOYkJ8xINafS0oIMjYvjVXb6iCh/xe30veo2DuAJWXVYDB5+IfDEHLTk5lSlMWyzTXs3KXr90RERETaPF5chou0Mm5Y/52YZV8TCjJpCTuCI2f4HUVkPyr2OuGCiby3pZaxuWmkJ4f2eu64kYMJGCzTKXsRERERIDqh3ZOLNhMuXcagpIGzuldBZjKDU0MkHHWK31FE9qNirxORnDE0t0aYMjxrv+dSExMYk5PGyvJawvoRioiIiPDq+xVsr28ivOZNv6P0KjNjYkEmwdzRWoZB4o4qlU64oaNICQXJz0zu8PmJhZk0tUaoDOX1cjIRERGR+PNYcRk56UmENy/3O0qvOzo/HRdu5dGFm/yOIrIXFXsdcM4RGTqSoiEpnV5cPHxwClmpIcoTC3s5nYiIiEh8qahr5NVVFVx6bCG4iN9xel1qYgLhTYt5+t3NmrFd4oqKvQ7s2NUMSWmMGJLa6TZmxvj8DGoTsiiraujFdCIiIiLx5elFmwlHHJ+eXuR3FN+0rn6d6oYWXlqxze8oInt0qdgzs5O60tZfbNoZLd4OVOwBjM1NA+DF5VtjnklEROLPQOsfRTrinOOx4lJmHDGYMd7fRgNRpPx9hg9O4dF3NJRT4kdXz+z9rott/cKmnQ1Qv2O/WTj3lZWaSFq4jheWlfdSMhERiTMDqn8U6ciiTdV8ULmLy2cM3LN6UY4rZhTx9gc72Lhjl99hRAA44Ly4ZvZR4EQgx8y+3u6pDCAYy2B+CUccm6t2E9i5HjjhoNtnt2xj0aZ0tlTvpiArJfYBRUTEdwOxfxTpzOPFpaQmBjlvcr7fUXx32Yzh/Orl1cxZWMo3zzna7zgiBz2zlwikES0K09vdaoHLYhvNH9vrm2iNOAJVZV3aPqelAoB/aCiniMhAMuD6R5GONDS38rclWzhvUj5pA2htvc7kZ6Zw+rhcnigpozU88CaqkfhzwN9K59xrwGtmdp9zbmMvZfJVRW0TAFbbteItNdLA0cPSeem9rVx/8qhYRhMRkTgRy/7RzLKAPwMTAQd8DlgFzAFGAhuAy51zVT35viLd8Y9lW9nVHObT04f7HSVuXHFcEa+8X8HcVZWcOV5LdIm/unoIJsnMZhPtZPa8xjn38ViE8tO2ukaSEwKEG2u6/Jozj8nj7tc+oLqhmazUxBimExGROBOL/vE3wIvOucvMLBFIBb4NvOKc+5mZ3QrcCnzrMN5DpFumTJtOefmHcxUknX0zNmgIF544aU9bVfXAPg5x+tG5ZKcl8ejCUhV74ruuFnuPA38geqSxXy8eUlHbRG5GMocyKPOMY3L5/atrmbuqkounad09EZEBpEf7RzPLBD4GXAvgnGsGms3sIuA0b7P7gbmo2BMflJeXM+vBuQDU7G7hvrc38NEjh3L8JXP3bHPL+ZM6fvEAEQoGuGz6cP70xjq21TaSl5HsdyQZwLo6G2erc+5u59w7zrmStltMk/mgNRxhx64m8jKSDul1U4ZnkZ2WxMsrta6KiMgA09P94yigErjXzN41sz+b2SAgzznXdjplK6DTBeK7leW1ABydn+5zkvhzxXFFhCOOJ0q6NgeESKx0tdj7m5l9yczyzWxI2y2myXywvb6ZiIPc9EM7AhMIGGccnctrqytpbtXFuCIiA0hP948JwLHA3c65acAuokM293DOOaLX8u3HzG4ws2IzK66srDyMGCIH5pxjRXktRUNSyDjIUlUD0ajsQXxk1BAeKy4l+isr4o+uFnszgW8AbwMl3q04VqH8sq22EeCQz+xBdChnXWMrCzfs7OlYIiISv3q6fywDypxzC7zHTxAt/raZWT6A97Wioxc752Y752Y452bk5OQcRgyRAyur2k1dYyvj8zP8jhK3rjiuiI07Gpi/Tn8bin+6VOw550Z1cDsy1uF627a6RlJCwW5NHXzy2GwSEwIayikiMoD0dP/onNsKlJrZOK/pDGAF8BzRwhLv67OHFVzkMK0oryUxIcCYnDS/o8Stcyfmk56cwJyFm/yOIgNYl6oaM7umo3bn3AMHeM1fgAuACufcRK9tCB1MHW1mRnT2sfOABuBa59yirn8bPaOyroncjCSicQ5NamICJ40eyssrt/G9C8Z3ax8iItK3dKd/7IKvAg97M3GuA64jenD2MTO7HtgIXH4Y+xc5LE2tYdZW1HN0fjoJwa4OEht4UhKDXDy1kMeKS/lhQwuZqRruKr2vq6ewjmt3P5nokcZFwIE6s/uA3++zza10PHX0ucBY7/YR4G7va68JRxxVu1o4Yuigbu/jzPF5vPp0JWsq6jkqTxcri4gMAN3pHw/IObcYmNHBU2d0d58iPWnNtnpaI44J+Zl+R4krVdXV5A4r2KvNhhSR8snvccx5M2l9fy75+fksebffzXEocaxLxZ5z7qvtH3sLvj56kNe8bmYj92nubOroi4AHvIvO55tZlpnlt5t5LOZqdrcQdo6hg7q/Tt4ZR+dxG8t5eeU2FXsiIgNAd/pHkb5uRXktQ1ITuzXHQX8WiYT3LEvR3iPvbMKdeR3/8e3v87NrTu/9YDKgdffc+y6i00Mfqs6mji4EStttV+a17SdWM43tqG8COKxib1hmMhMLM3hlZYfXzYuISP/X3f5RpE+wzGGU1zQyviBDl6x00YSCDLbXN1NR1+R3FBmAunrN3t/4cJrnIHAM8NjhvLFzzpnZIc9F65ybDcwGmDFjRo/NZbtjVzMAQw6j2AM485g8fvPKGrbXN5GdpiNeIiL9WSz6R5F4ljD6o5jB0cM0gqmrjs5L540123lvS63fUWQA6uo1e3e2u98KbHTOdWeVyG1twzP3mTp6M1DUbrvhXluv2VHfTFZK6LAvND7zmDx+/fIaXn2/gk/PKDr4C0REpC/rqf5RJO6FI47g6I8ycuggBnVj5vKBKikUZGxuGqu21kHw8E4qiByqri698BrwPpAODAaau/l+nU0d/RxwjUWdANT05vV6ADt2NTE07fB/AScUZDAsI1lDOUVEBoAe7B9F4t7rayoJDBqstfW6YWJBJs3hCMGR0/2OIgNMV4dxXg78D9EJVQz4nZl9wzn3xAFe81eik7Fkm1kZ8H3gZ3Q8dfQLRJddWEt06YXruvPNdFdrOEJ1Qwtjcw99SEJJSTEzb7xpr7aUzEm8vqaFxpYwyaFgT8UUEZE4053+UaSveqK4DNdYx6jsMX5H6XMKspLJSgmxY+zJfkeRAcKcUu0AACAASURBVKar5+BvA45zzlUAmFkO8DLQaWfmnPtMJ0/tN3W0Nwvnl7uYpcdVNbTgoFtn9prDxtRLb9yrbcdzj9FAHvPX7eC0cbk9lFJEROLQIfePIn1RdUMz/1qxjdZ1CwgGjvU7Tp9jZkwoyOCt3UexrrKeI7UYvfSSrl6gFmjryDw7DuG1cW/HrsOfibO9wa1VpISCGsopItL/9ev+UaTNs4u30ByO0Lr2bb+j9FnH5GfgImHmFJcefGORHtLVDulFM/unmV1rZtcCfyc69LJf2FHfTMAgK7Vnir0AEU4Zm82/VmwjEumxCUNFRCT+9Ov+UQTAOcejC0uZUJCB26lCpbsGJSUQLl3KkyVltIQjfseRAeKAxZ6ZjTGzk5xz3wD+CEz2bvPwlj/oD6oamslKSSQY6Ln1Ys6ZOIyttY0sLqvusX2KiEh8GCj9owjA0rIaVpbXcuXxI/yO0ue1rnmT7fXNGv0lveZgZ/Z+DdQCOOeecs593Tn3deBp77l+YeeuZgYPCvXoPs84Jo9Q0Hhx+dYe3a+IiMSFAdE/igA8unATKaEgF00t8DtKnxfZvJy8jCQe01BO6SUHK/bynHPL9m302kbGJFEvi2DU7G457MXU95WZEuLkMdm8sKyc6PwzIiLSj/T7/lEEoL6plWcXb+GCyflkJPfsgfEByUX49PQi5q6qoLxmt99pZAA4WLGXdYDnUnoyiF8aAylEHAzuoev12jt3Yj5lVbt5b0ttj+9bRER81e/7RxGAvy3ZQkNzWEM4e9DlM4qIuOhSFiKxdrBir9jMvrBvo5l9HiiJTaTe1RAYBNDjZ/YAzhqfRzBg/H1Zr64PLyIisdfv+0cRgL++s4lxeekcO+JAxzfkUIwYmsqJo4fyWEmpJvKTmDvYOntfA542s6v4sPOaASQCl8QyWG9pCEaLvVic2Rs8KJGTx2Tz3OItfPPscZj13AQwIiLiq37fP4os31zD0rIavn/heP0N08OuOK6I/350MfPW7eCkMdl+x5F+7IDFnnNuG3CimZ0OTPSa/+6c+3fMk/WShkAqaUkJJCbEZlmki6cVcNOcJZRsrGLGyCExeQ8REeldA6F/FHl04SYSEwJcMq3Q7yj9RlV1NbnDCiCYQMrld3LFt39H8+t/2mub/Px8lryrAQLSMw52Zg8A59yrwKsxzuKLhsCgHp+Js72zxg8jObSMZxdvUbEnItLP9Of+UQaeKdOmU17uXXqSkEjK5f9DuHQJRx15/Z5tqqqrfErXP0QiYWY9OBeA11ZVsiw5jS/NvJKUxOCebe64+jR/wkm/1KVir79yztEQHMSRMRjC2SYtKYGzxg/j78vK+d6F4wkFY3MGUURERORwlJeX7ylElm2u4d/vV3Dl5Z+m8IZr9mxzy/mTfErX/0wszGBxWTUrymuZfsRgv+NIPzWgK4+KuibClhCT6/Xau2hKATt3NfP66sqYvo+IiIjI4XLOsbSsmuy0RAoyk/2O028NTUuiICuZZZtrtEyXxMyALvbWVtQDsZmJs71Tx+WQnZaoBTRFREQk7m2pbmR7fTNThmdpYpYYm1yYRc3uFjbtbPA7ivRTA7rYG5+fwYRdS8hNT4rp+4SCAS49djivrKygsq4ppu8lIiJ9n5kFzexdM3veezzKzBaY2Vozm2NmsT1KKQPa0rJqkhICjBuW7neUfm907iBSQkGWba7xO4r0UwP6mr3BgxLJbq0kKRQ8+MaHoKSkmJk33rRXW0Mgldb0E3n63TJu+NjoHn0/ERHpd/4bWAlkeI9/DvzKOfeomf0BuB64269w0n/VN7WytrKeKUVZmmegFyQEAowvyGDRxirqGltIT47dpIEyMA3oYi9WmsPG1Etv3K991T8XMmdhKV845UgNixARkQ6Z2XDgfOAnwNct2mF8HPgPb5P7gR+gYk9iYPnmGiIOJhdm+h1lwJhUmEnJxiqWb6nlo0cO9TuO9DM6ZNOL8ps380HlLhas3+l3FBERiV+/Br4JRLzHQ4Fq51yr97gM0MJn0vMC0eGERwxNJSvGk9fJhzJTQhwxNJX3NtcQjmiiFulZKvZ6UU7LNrJSQzwwb4PfUUREJA6Z2QVAhXOuWysqm9kNZlZsZsWVlZoBWg5NcMQ0GprDTBme5XeUAWdyYSa7msOs217vdxTpZ1Ts9aIgEa6YUcQ/39tGec1uv+OIiEj8OQn4pJltAB4lOnzzN0CWmbVdejEc2NzRi51zs51zM5xzM3Jycnojr/QTzjkSJpxFZkqIkUNT/Y4z4IzMHkR6cgJLSjVRi/QsFXu97LMnHEHEOR5ZsMnvKCIiEmecc7Occ8OdcyOBK4F/O+euAl4FLvM2mwk861NE6aeKN1YRzDmSaUVabsEPATOmDs9ic/VubMgIv+NIP6JirxeVlBTzndtuY0hzJXe/vILP3ngzN8/6rt+xREQk/n2L6GQta4lew3ePz3mkn5n9+jpcYx3jCzIOvrHExISCDEJBIzT+DL+jSD+iYq8Xtc3SefoJ02gNJBI87gq2V2tstoiI7M85N9c5d4F3f51z7njn3Bjn3Kedc1q0VXrMB5X1vLxyG63vz9VyCz5KCgUZn59BcNTxVNQ2+h1H+gn9RvugMCuFgsxkSjZWEUFDJURERMQ/f35jPaFggJb3X/U7yoA3pSgLAgEemr/R7yjST6jY88mMkUOob2qlIjTM7ygiIiIyQFXWNfHkojI+dexwaKzzO86ANzg1kXDpUh5asInGlrDfcaQfULHnk5FDU8lOS6Q06QgiWlNFREREfPDgvA20hCN8/pRRfkcRT+uKl9m5q5lnF3c46a7IIVGx5xMzY8YRQ2gIpvHSim1+xxEREZEBZldTKw/M38iZx+QxOifN7zjiiWxdxdHD0vnLmxtwTicE5PCo2PPR2Nw0ksMN3P3aB/plFhERkV71wLyNVDe08MVTR/sdRfbxhVOOZNW2Ol5ZWeF3FOnjVOz5KBAwipo2sqS0mjfWbPc7joiIiAwQu5pamf36B3zsqBymHzHY7ziyj09OLaBoSAq/+/canRCQw6Jiz2fDWrZQNCSFn7/4vq7dExERkV7xwLyNVDW08LUzx/odRToQCgb40mljWFJWw+s6ISCHQcWezwI4bvnEON7bUsvflm7xO46IiIj0c/XeWb1Tj8rh2BE6qxevLj22kPzMZH73is7uSfep2PNZSUkxT/7xTtLCdXzrkXlcfePXuXnWd/2OJSIiIv3UA/M26KxeH5CUEOSLp46meGMV89ft9DuO9FG+FHtmtsHMlpnZYjMr9tqGmNm/zGyN93VAHGpqDhvTLr2RM6ePozGQQuC4K9leXe93LBEREemH6pta+dPr6zhtXA7TdFYv7l1xXBE56Un87t9r/I4ifZSfZ/ZOd85Ndc7N8B7fCrzinBsLvOI9HjBGDEmlaHAK76zfSStBv+OIiIhIP3TfW+u9s3pH+R1FuiA5FOSGU47k7Q92ULxBZ/fk0CX4HaCdi4DTvPv3A3OBb/kVpreZGSeNyebRhaWUJo30O46IiIj0I1OmTae8qp6UT/2U8JaVfOK4L+y3TVV1lQ/JZF9V1dXkDiv4sCEhkZRP3cElP3yApn/8AoD8/HyWvFviU0LpS/wq9hzwkpk54I/OudlAnnOu3Ht+K5DnUzbf5GUkMy4vndVbR7B++y5GZQ/yO5KIiIj0A+Xl5Rz/7TmsKK9l5pUXM/hzl++3zS3nT/IhmewrEgkz68G5e7UtK6vh36sy+PRdzzMmN407rj7Nl2zS9/g1jPNk59yxwLnAl83sY+2fdNEphzqcdsjMbjCzYjMrrqys7IWoveuUsdkEcHzv2eWaeUlERER6hGUV8N6WWiYPz2JwaqLfceQQTSjIYMigRN5cu52wluqSQ+BLseec2+x9rQCeBo4HtplZPoD3taKT1852zs1wzs3Iycnprci9ZlBSAqMa1/LGmu38bWn5wV8gIiIichCJx32axIQAHxk1xO8o0g2BgHHymGxqdrewbHON33GkD+n1Ys/MBplZett94BPAcuA5YKa32Uzg2d7OFi8KmsuYPDyT259fQc3uFr/jiIiISB82d1UFwcKJHD9qCMkhTQLXV40cmkrRkBQWrNsBial+x5E+wo8ze3nAm2a2BHgH+Ltz7kXgZ8BZZrYGONN7PCAZ8JOLJ7Gjvom7XlrldxwRERHpo1rCEX76wkoitRVMHp7pdxw5DGbGKWNyaGyNEJp8nt9xpI/o9WLPObfOOTfFu01wzv3Ea9/hnDvDOTfWOXemc25Azy87aXgm13x0JA/O36ipdkVERKRb7nlzPau31dNS/DgJAT9X3JKekJOexPj8DBKOOYNVW+v8jiN9gH7r49gtZ4+jaHAqX5uzmNpGDecUERGRrivd2cCvX17NWePzCG9a7Hcc6SEnj8mGlt1888mlmqxFDkrFXhxLS0rgV1dMpbymke8/+57fcURERKSPcM7xnWeWEzTjh5+c4Hcc6UEpiUGaFzzKktJq7n1rvd9xJM7F06Lq4ikpKWbmjTfteTw8aRRPv+s4bVwOF00t9DGZiIjEkpkVAQ8Qvb7dAbOdc78xsyHAHGAksAG43DmnFbClU88vLee11ZV874LxFGSl+B1Helh4/Tuc8Z+3cedLq/jE+GGMGKoJW6RjOrMXh5rDxtRLb9xz++S5Z5PRWs13nl5O6c4Gv+OJiEjstAI3O+fGAycQXYt2PHAr8IpzbizwivdYpEM1u1v44d9WMKkwk5knjvQ7jsTIjy+ZSEIgwK1PLdXazNIpFXt9QCBgHNOwHICvPLKIxpawz4lERCQWnHPlzrlF3v06YCVQCFwE3O9tdj9wsT8JpS+4/fkV7NzVxB2XTiIYML/jSIzkZ6Yw67yjefuDHTw0f6PfcSROqdjrI5JdI3dePoUlZTXc+qSO4IiI9HdmNhKYBiwA8pxz5d5TW4kO8xTZzz+WlfNESRlfPn0MEwu11EJ/95njRnDqUTnc/vxKlmuxdemAir0+5OwJw7jlE0fxzOIt3P3aB37HERGRGDGzNOBJ4GvOudr2z7no0b4Oj/iZ2Q1mVmxmxZWVlb2QVOLJttpGZj29jMnDM/mvM8b6HUd6QSBg/OqKqQwZlMiXHl6k2dtlP5qgpY9om7TFATkpE/nFPxx/f3IOR6c1ctcdt/sdT0REeoiZhYgWeg87557ymreZWb5zrtzM8oGKjl7rnJsNzAaYMWOGhoAMEFOmTae8fCtJZ/03gbwxlD/0LQp/vG2vbaqqNZ9Pf1JVXU3usII9jwO5o0k65xuMv/YOmuf+gfz8fJa8W+JjQokXKvb6iLZJWwAmhiM8UVLG6oRpJFXP9zmZiIj0FDMz4B5gpXPul+2eeg6YCfzM+/qsD/EkTpWXl3PuT5/htdWVnD4uh8lnz9lvm1vOn+RDMomVSCTMrAfn7tVWsrGKNwPT+fhPnubF2y7xJ5jEHQ3j7INCwQAXTi4gORRk2aBprK2o9zuSiIj0jJOAq4GPm9li73Ye0SLvLDNbA5zpPRYBwIaO4M212xk5NJVJuk5vwDp2RBZHZg/ijbXbCRRqbUWJUrHXR6UlJ3DJtELAcfU9Cyir0pIMIiJ9nXPuTeecOecmO+emercXnHM7nHNnOOfGOufOdM7t9DurxIeqXc0knX4jKaEgZ43PI3pyWAYiM+PsCcPIHpRE0mlf1IQtAqjY69MGpyYyede71De1cvU971BZ1+R3JBEREekl4Yjjvx59F0vJ5PzJ+aQm6uqcgS4xIcAnpxbgmnZx3X0LdTJAVOz1dWmReu699jjKa3Zz1Z/nq+ATEREZIH75r1W8sWY7zfMfYVhGst9xJE6kJSXQ9PJvaWwJc+29C6luaPY7kvhIxV4/MGPkEP4y8zhKd+7mytnzqKht9DuSiIiIxNALy8r531c/4DPHFxFe86bfcSTOuOotzL56Bpt2NPDZexao4BvAdL6/nzhxTDb3XXcc1923kI//9Hkm1haT5D48y5edlaYlGkRERPqBBet28LU5i5l+xGC+f+EE7vmS34kkHn109FD+ePV0/vPBEq768wIe/vxHyEpN9DuW9DIVe31c2/p7bY4KZrI4eTIr8z7OJdMKyUwJAbD4qbv9iigiIiI95P2ttXz+gWKKBqdwz8wZJIeCfkeSOHb60bnMvmY6NzxYwn/8KVrwDR6kgm8gUbHXx7Vff6/N8p9+l6aTrmXOwlIumlpAnsbxi4iI9FnRRdPLsUFDSDrvVgAqHvwZR/1PdFJWLZguB3LauFz+dM0MvvBAMVfOns/9nzueYZn623Cg0DV7/VCgtpxPzygiIWg8uaiMjTt2+R1JREREuqm8vJyv/vllCmb+kuSMoVz98Snc+oenmPXgXGY9OJdIJOJ3RIlzpx6Vw73XHsfm6t1c8n9vsXpbnd+RpJeo2OunhgxK5PIZRWSmhHhuyRa2hvL9jiQiIiLdYGlDeaKkjPqmVj45pYDstCS/I0kfdNKYbOb85wmEI45P3f0289ft8DuS9AIN4+zH0pISuGz6cP6+rJxVbgK3Pb2M7104nqQEje8XERHpCz6orCfp3G/R2BLm0mnDNfxOuqSquprcYQUdPmeDhpB01n9z5R8a+eWV07n02OG9nE56k4q9fi4pIcjFUwp55sWXeXgBvLellrs/eyz5mSl+RxMREZEDWFpWzefuW4gFgnzq2OHkpOuMnnRNJBJm1oNzO32+sSXMbx9+jq8/lsBXv/tzWhY9Bc7tt11+fj5L3i2JYVKJNRV7A0AgYBzZuJZvf+5Sbnl8Cef/9k1+eslEzpmooZ0iIiLx6LHiUr7zzHJy0pJo/McvyLlgjt+RpB9JDgWpePKHnH/nSyzlHMacdinnThhG0j6zu95x9Wn+BJQeo2v2BpBzJ+Xz7FdOpiArmS8+tIivPLKIrTVagF1ERCReNLdG+M4zy/jmE0s5buRgnvvKSbjabX7Hkv4oEub0cbl8/OhcSnc2MKe4lCotvt7vqNgbYMbkpvH0l07i62cdxUsrtnHGXXP57StrqG9q9TuaiIjIgLa2op7L/ziPh+Zv4j8/diT3X3c8QzUZi8TYpMJMLp02nMaWCI8uLGXDds3i3p+o2BuAQsEA/3XGWF6+6VROGpPNL/+1mlN+/m/uemkV22p1pk9ERKQ3tYYj3D33A8777Rts2LGL/7vqWGaddwwJQf2ZJr2jcHAKVx5XREZyAs8u2cK8dTuIdHANn/Q9umZvAPvNnXfQVF3PtGAGm1pG8btXmvndK6tJrNrIyOTdDG7dSbKLFn/ZWWncdcftPicWERHpX5ZvruG2Z5azpLSasyfkcfvFE8lN14yb0vsyUkJcPqOIV1dV8M76ndFLfZLS/I4lh0nF3gC2vbqeqZfeuOdxdUMz722ppbixjtUpmQBkpoQozEqhbF0x/35/G0dmp5Gfldzp8g03z/ou26vr92tXsSgiIvKhbbWN/M8/V/FE8SZc0y6a5z/C0/cV8/Q39t+2qrqq9wPKgBQKBjjrmDwKMlOYu7qS5Au/w7ubqpg2YrDf0aSbVOwNECUlxcy88aa92hYtXsLUSz98nJWayEljslny51u54jv/S2nVbsqqGli3vZ7GlKP43H3Fe7ZNCQXJSg2RmRIiKzXE4NREBg9KZOHuPEbOuICUxCCpiQlkpoRIT05g6dN/2C9TR4WhikIREenPana3cO9b65n9+jpawhFa3vsXX/3SjSSdf2ynr7nl/Em9mFAGOjNjYmEmOelJPPLvSi7/4zxmnXsM1544kkDA/I4nh0jF3gDRHLa9zuIBzHvn8x1ua8DQtCSGpiUxtSgLgIVP/5mbv3UrH1TuorKuieqGZl56YwGV26HcQrRYiBZLpCXpCDat2b7X/gIGSWkf5caHSphYmMnk4ZlMKszc78wiwOKn7u65b1pERCRO1DS08Je31vOXt9ZT19jKOROGMeu8ozluwudJCn3F73gi+8nLSKbxb7dz5o/+yo+eX8FLK7byP5dNoWhIqt/R5BCo2JMuCbkWph8xhOlHDNnTtvr5P+1XrP3frZ/nutv/SGNzmF3NrVTvbqG6oYWNayt4b0st/1i+dc+2yeknsWVZOXkZyQzLSCY3QzOOiYhI/7Jxxy4emLeRxxaWUtfUytkT8vjqx8cysTDT72giB9fcwD0zZzBnYSk//vtKzv7168w67xiuOn6EzvL1ESr2pEcZ0SGeKaEggwclMtwb4p229HHu/+Z11DS0sHxLDUvLavjLc6+xrTadNRXRoZxmkJr2EWY9tYypRZlMKMhkdE4aKYkdXx8oIiISj5pbI7y+upIv3vUILdljwEUIb1hEy7J/8PR9ZTzdbltdjyfxzsy48vgRnHJUDt96YinffWY5jy0s5bbzj+GEI4f6HU8OIu6KPTM7B/gNEAT+7Jz7mc+RhK5d89cVmakhThqTzUljspk/5/dMPfdkGppb2VrbyLaaJtas2cHfl27hr+9s2vOawqwURuemkZ+RTF5GEjkZyQwdlEhGcvR6wAzvusCM5BCJCZqmWkT6J/WP8a25NcLCDTv525It/GP5Vmp2t+DS8jjhyGwmFmaSdtYxwFX7vU7X40lfUZiVwoPXH8+zi7fw8xff58rZ8zl+1BD+82NHctq4XII60xeX4qrYM7Mg8L/AWUAZsNDMnnPOrfA3mRzKNX8dOVCxmJqYwJHZaRyZnUbKkse4939+yfodu1i1tY61FfWsrahn/fZdvF9ey/b6JiIHWvYl3EKiRUhwrQRdKwmuhUEh45Tjp5GREi0IM5ITSE8OkZHifW1XNA5KDGKmDysRiS/qH+NPXWMLq7bWUbyxirc/2MHC9TvZ3RJmUGKQT0wYxoVT8rny4zM44f5X/I4q0m1V1dXkDivY/4lgIglHncz8Xefwzvqd5Gcmc/6kfM4cn8eU4VkalRVH4qrYA44H1jrn1gGY2aPARYA6sz7uUIrFQMAYnZPG6Jzo2i43z/ouQ6rrGQI4jGZvMpgVH2zgzGtuork1QpN3W/DvFxh74lnt2sJsLt/CE/PX0GoJODvwh0/AIDEhQCgYIDEY/VpbW40LhwngMCKYi5CUEOCo0aMIBgwzI2i0u28EAhAwI2DmtRNtNyMQMALe9m3bBNq/vt1rA95jM8M5R3PY8c9X5rKrqQXXlsiiXxMTQxx37FQSAkYwECAUjL53KBiIfvXaE4LRPPvqaO3UF/75Lxp2N2G4Pbe0lCQuv+STJASMhHbv0fY4wXuPtq8h72swYDgHEeeIOIdzEI447zE472vEOSKRdvcPsG3YOZxzPPToE9Q2NEW/D4wAETJTE7n+6s+QmBCI3oKBPfdDwcCeXAlBIzEYIMH7Htp+Xv2B8/5R2//bun2f22v7tm32f11H20Ta/l0ijrD3bxWJRP9dIhFHuK094hiZPYiQFog+HL3ePz6yYBM/+NUf2FVXC5EwLhKGSBgirdDaggu3QLiFwRlp/O9vf0lyQpCkUGDP16SEAMmh4J6vCd5nXG9x3meHa7u/pz36/3fP/+V2jx3Q1BJmV1OY+qZWdjW3Ut/UStWuZsprGtla08jm6t2s3lZHWdXuPe8VqdpCuHwlkfKVNGxZycPhZh5GQzSl74tEwsx6cG6nz4cjjru++3WOvvH7PDBvI39+cz3BgDE2N41JhZmMzk0jNz2JvIxkstOSSAkFSQ4FSPI+G5ISAr4cZG/7fIC9PyPa93HtPyPat7Vt3/baSMSxuyVMY0uE3c1h73709pWbvkF1fQMWDEFCIgQSIBDEAkEIBMGCZLg6Vv79LzH7XuOt2CsESts9LgM+4lMW8UFnZwA/96P9l25YduvnOTJn78U+S9bM5czrP7tX2923/ogbf/ZnAFrD0SLwkTtnMW7iVFotgTAJtFr0tnX7TobkDturkGreWc2Rkz9C2Dmv4ICais00t0a8P3Cjv+ilm7fQEo4AFv0gwGhubiaUmIQz29MORktrmGBCAlhbCRUt6ILBEBHnvCKm45+RuXyCKUECgb0Ly4qdlVQWryXSrjQjECAUSqI1EqElfKBTop0ZASn7ty5+elk39hVLY6CDycEWPFjSrb21FeftHwMY7Tok2+vLXgV023b79l/7FlN7t7HPnf2Lrr0Ls72Ltc7+v8SLebM+Tn5mB/+ZpKt6vX98Y00lTYXTSU5MIXyA/2ANwHX3Luzyfs2ivzdm5n312ok+YXu2+fDA1L4FGfs+Zv8/1mIhMyVEfmYy00YMZt3LD3PZ575CbnoSg5LGAqfut72GaEp/FwwY4U3vcu91x1PX2ML8dTtZVlbNkrIaXnm/gsdLyg66j7bjqwf6TIAPPxfa7rd9LgD7fTa0b9v3YE+vmnoFnU0/GPQO/te9/0ZMI5iLo78QzOwy4Bzn3Oe9x//f3r2F2nHVcRz//jCtQi1tYmwbm2ISCAX1xRBq1SrBlhhjSVREIl5SI4QiAYuKpAZKsU9VvCCIUmuwarXBS20oKWmqgk+JbWNOLjZt0pJiD7mglcTig8b+fVjr9Ex2Z/bZ0ZNZs/f+fWA4s2fWzvnx3ytrZs5c9qeAd0TEpkqbjcDG/PJa4On/89fOB/46Y6tuGbbMw5YXnLktztyOUcn85oh4Y4kwpQ2yfczLZ3sb2XXD2LcvBNdhmmuRuA7TxqEWjdvHrp3ZmwSuqbxemJe9IiLuAe6ZrV8o6YmIWD5b/14bhi3zsOUFZ26LM7fDmUfCjNtHmP1tZNe5nySuwzTXInEdpo17Lbp2A8XjwFJJiyVdDKwDthfOZGZmVpq3j2Zmdt46dWYvIs5K2gTsJD1aemtEHCocy8zMrChvH83M7H/RqYM9gIjYAexo8VcO4+Uuw5Z52PKCM7fFmdvhzCOgwPZxGLifJK7DNNcicR2mjXUtOvWAFjMzMzMzM5sdXbtnz8zMzMzMzGbBWBzsSVol6WlJRyVtrln/Wknb8vo9kha1n/KcPNdIQDoojgAABgtJREFU+r2kP0s6JOnzNW1WSDotaV+e7iiRtSfTMUkHcp4natZL0ndynfdLWlYiZyXPtZX67ZN0RtJtPW2K11nSVkmnJB2sLJsnaZekI/nn3Ib3rs9tjkhaXzjz1yUdzp/9g5Iub3hv337UcuY7JU1WPv/VDe/tO8a0nHlbJe8xSfsa3tt6nZvGtq73ZxsOkr4oKSTNL52lhEHH2FFVahzumkH2IceJpNdI+pOkh0tnKSZ9g/zoTqQb2Z8FlgAXAxPAW3rafA74fp5fB2wrnHkBsCzPXwo8U5N5BfBw6fr2ZDoGzO+zfjXwCOn7Ma8H9pTO3NNPTpC+p6RTdQbeCywDDlaWfQ3YnOc3A3fXvG8e8Fz+OTfPzy2YeSUwJ8/fXZd5kH7UcuY7gS8N0Hf6jjFtZu5Z/w3gjq7UuWls63p/9tT9ifS1FDuB50uMH12YBh1jR3EqOQ53bRpkH3KcJuALwM9K78uVnMbhzN51wNGIeC4i/gU8AKztabMWuC/P/xK4UZJazHiOiDgeEXvz/D+Ap4CrS+WZRWuBH0eyG7hc0oLSobIbgWcj4vnSQXpFxB+AF3sWV/vsfcCHat76fmBXRLwYEX8HdgGrLljQirrMEfFoRJzNL3eTviesMxrqPIhBxpgLol/mPIZ9DPh5G1kG0Wds63R/tqHwLeDLwNg+iKDrY+wFVmwc7poR3oc8b5IWAh8E7i2dpaRxONi7GvhL5fULvLrTv9ImD5SngTe0km4G+ZLStwN7ala/U9KEpEckvbXVYPUCeFTSk5I21qwf5LMoZR3NO8VdqzPAlRFxPM+fAK6sadPlem8gneWtM1M/atumfFnU1obLC7ta5/cAJyPiSMP6onXuGduGvT9bQZLWApMRMVE6S4f0G2NHkceHGjPsQ46Db5P+CPRy6SAlde6rF2yapNcDvwJui4gzPav3ki45fCnfR/QbYGnbGXvcEBGTkq4Adkk6nM88dJrSFxSvAW6vWd3FOp8jIkLS0Pw1W9IW4Cxwf0OTLvWj7wF3kQ6M7iJdFrmhUJbz9XH6n9UrVufesa16IcWw9Wdrh6THgKtqVm0BvkK6hHHk9atDRDyU28w0xtoYmGEfcuRJuhk4FRFPSlpROk9J43Bmb5J0Lf+UhXlZbRtJc4DLgL+1kq6BpItI/0nvj4hf966PiDMR8VKe3wFcVPqm9IiYzD9PAQ+SLquoGuSzKOEDwN6IONm7oot1zk5OXQKbf56qadO5eku6BbgZ+ERE1O7QD9CPWhMRJyPiPxHxMvCDhixdrPMc4CPAtqY2percMLYNZX+29kTETRHxtt6JdO/mYmBC0jFSv9grqe6AaOg11aFyoHcLM4yxI8rjQ8VM+5Bj4t3AmjwuPAC8T9JPy0YqYxwO9h4HlkpanM/grAO297TZDkw92e2jwO9KDpL5XpsfAk9FxDcb2lw1dV+hpOtIn2WxA1RJl0i6dGqe9FfWgz3NtgOfVnI9cLpy6VZJjWdAulbnimqfXQ88VNNmJ7BS0tx8+eHKvKwISatIl1OsiYh/NrQZpB+1puee0g83ZBlkjGnbTcDhiHihbmWpOvcZ24auP1s3RMSBiLgiIhZFxCLS5XvLIuJE4WitG2SMHWFdHIeLGGQfchxExO0RsTCPC+tI+/afLByrjNl4ykvXJ9JTIJ8hPalpS172VdKACPA64BfAUeCPwJLCeW8gXTa2H9iXp9XArcCtuc0m4BDpiVO7gXcVzrwkZ5nIuabqXM0s4Lv5czgALO9A37iEdPB2WWVZp+pMOhA9DvybtCPzWdI9pb8FjgCPAfNy2+XAvZX3bsj9+ijwmcKZj5LuqZjq01NPwH0TsKNfPyqY+Se5r+4n7Tgs6M2cX79qjCmVOS//0VQfrrQtXuc+Y1un+7On4Zko9DTfLkxNY+y4TKXG4a5NTeNs6VyFa7KCMX4ap3IRzMzMzMzMbISMw2WcZmZmZmZmY8cHe2ZmZmZmZiPIB3tmZmZmZmYjyAd7ZmZmZmZmI8gHe2ZmZmZmZiPIB3tmZmZmZmYjyAd7ZmZmZmZmI8gHe2ZmZmZmZiPov/wjlUiugB9TAAAAAElFTkSuQmCC\n"
          },
          "metadata": {
            "needs_background": "light"
          }
        }
      ]
    },
    {
      "cell_type": "markdown",
      "source": [
        "## Feature Engineering"
      ],
      "metadata": {
        "id": "KZD9977Qu0v8"
      }
    },
    {
      "cell_type": "markdown",
      "source": [
        "We'll see how adding a few synthetic features to a dataset can improve the predictive performance of a random forest model.\n",
        "\n",
        "The [*Concrete*](https://www.kaggle.com/sinamhd9/concrete-comprehensive-strength) dataset contains a variety of concrete formulations and the resulting product's *compressive strength*, which is a measure of how much load that kind of concrete can bear. The task for this dataset is to predict a concrete's compressive strength given its formulation."
      ],
      "metadata": {
        "id": "rswzfmJMu6gr"
      }
    },
    {
      "cell_type": "code",
      "source": [
        "!kaggle datasets download -d sinamhd9/concrete-comprehensive-strength\n",
        "!unzip -qq concrete-comprehensive-strength.zip"
      ],
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/"
        },
        "id": "HNKgsVNsu5-H",
        "outputId": "21d4f323-f95e-47f5-81e9-a3f7a7dfa223"
      },
      "execution_count": 7,
      "outputs": [
        {
          "output_type": "stream",
          "name": "stdout",
          "text": [
            "Downloading concrete-comprehensive-strength.zip to /content\n",
            "\r  0% 0.00/32.9k [00:00<?, ?B/s]\n",
            "\r100% 32.9k/32.9k [00:00<00:00, 14.5MB/s]\n"
          ]
        }
      ]
    },
    {
      "cell_type": "code",
      "source": [
        "df = pd.read_excel(\"Concrete_Data.xls\")\n",
        "df.head()"
      ],
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/",
          "height": 285
        },
        "id": "T-SLhsY5vXtq",
        "outputId": "c0e14815-f684-4e41-bfb0-7be1210b6d40"
      },
      "execution_count": 2,
      "outputs": [
        {
          "output_type": "execute_result",
          "data": {
            "text/plain": [
              "   Cement (component 1)(kg in a m^3 mixture)  \\\n",
              "0                                      540.0   \n",
              "1                                      540.0   \n",
              "2                                      332.5   \n",
              "3                                      332.5   \n",
              "4                                      198.6   \n",
              "\n",
              "   Blast Furnace Slag (component 2)(kg in a m^3 mixture)  \\\n",
              "0                                                0.0       \n",
              "1                                                0.0       \n",
              "2                                              142.5       \n",
              "3                                              142.5       \n",
              "4                                              132.4       \n",
              "\n",
              "   Fly Ash (component 3)(kg in a m^3 mixture)  \\\n",
              "0                                         0.0   \n",
              "1                                         0.0   \n",
              "2                                         0.0   \n",
              "3                                         0.0   \n",
              "4                                         0.0   \n",
              "\n",
              "   Water  (component 4)(kg in a m^3 mixture)  \\\n",
              "0                                      162.0   \n",
              "1                                      162.0   \n",
              "2                                      228.0   \n",
              "3                                      228.0   \n",
              "4                                      192.0   \n",
              "\n",
              "   Superplasticizer (component 5)(kg in a m^3 mixture)  \\\n",
              "0                                                2.5     \n",
              "1                                                2.5     \n",
              "2                                                0.0     \n",
              "3                                                0.0     \n",
              "4                                                0.0     \n",
              "\n",
              "   Coarse Aggregate  (component 6)(kg in a m^3 mixture)  \\\n",
              "0                                             1040.0      \n",
              "1                                             1055.0      \n",
              "2                                              932.0      \n",
              "3                                              932.0      \n",
              "4                                              978.4      \n",
              "\n",
              "   Fine Aggregate (component 7)(kg in a m^3 mixture)  Age (day)  \\\n",
              "0                                              676.0         28   \n",
              "1                                              676.0         28   \n",
              "2                                              594.0        270   \n",
              "3                                              594.0        365   \n",
              "4                                              825.5        360   \n",
              "\n",
              "   Concrete compressive strength(MPa, megapascals)   \n",
              "0                                         79.986111  \n",
              "1                                         61.887366  \n",
              "2                                         40.269535  \n",
              "3                                         41.052780  \n",
              "4                                         44.296075  "
            ],
            "text/html": [
              "\n",
              "  <div id=\"df-536c7d13-0377-4de9-9199-e2a2077efd84\">\n",
              "    <div class=\"colab-df-container\">\n",
              "      <div>\n",
              "<style scoped>\n",
              "    .dataframe tbody tr th:only-of-type {\n",
              "        vertical-align: middle;\n",
              "    }\n",
              "\n",
              "    .dataframe tbody tr th {\n",
              "        vertical-align: top;\n",
              "    }\n",
              "\n",
              "    .dataframe thead th {\n",
              "        text-align: right;\n",
              "    }\n",
              "</style>\n",
              "<table border=\"1\" class=\"dataframe\">\n",
              "  <thead>\n",
              "    <tr style=\"text-align: right;\">\n",
              "      <th></th>\n",
              "      <th>Cement (component 1)(kg in a m^3 mixture)</th>\n",
              "      <th>Blast Furnace Slag (component 2)(kg in a m^3 mixture)</th>\n",
              "      <th>Fly Ash (component 3)(kg in a m^3 mixture)</th>\n",
              "      <th>Water  (component 4)(kg in a m^3 mixture)</th>\n",
              "      <th>Superplasticizer (component 5)(kg in a m^3 mixture)</th>\n",
              "      <th>Coarse Aggregate  (component 6)(kg in a m^3 mixture)</th>\n",
              "      <th>Fine Aggregate (component 7)(kg in a m^3 mixture)</th>\n",
              "      <th>Age (day)</th>\n",
              "      <th>Concrete compressive strength(MPa, megapascals)</th>\n",
              "    </tr>\n",
              "  </thead>\n",
              "  <tbody>\n",
              "    <tr>\n",
              "      <th>0</th>\n",
              "      <td>540.0</td>\n",
              "      <td>0.0</td>\n",
              "      <td>0.0</td>\n",
              "      <td>162.0</td>\n",
              "      <td>2.5</td>\n",
              "      <td>1040.0</td>\n",
              "      <td>676.0</td>\n",
              "      <td>28</td>\n",
              "      <td>79.986111</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>1</th>\n",
              "      <td>540.0</td>\n",
              "      <td>0.0</td>\n",
              "      <td>0.0</td>\n",
              "      <td>162.0</td>\n",
              "      <td>2.5</td>\n",
              "      <td>1055.0</td>\n",
              "      <td>676.0</td>\n",
              "      <td>28</td>\n",
              "      <td>61.887366</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>2</th>\n",
              "      <td>332.5</td>\n",
              "      <td>142.5</td>\n",
              "      <td>0.0</td>\n",
              "      <td>228.0</td>\n",
              "      <td>0.0</td>\n",
              "      <td>932.0</td>\n",
              "      <td>594.0</td>\n",
              "      <td>270</td>\n",
              "      <td>40.269535</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>3</th>\n",
              "      <td>332.5</td>\n",
              "      <td>142.5</td>\n",
              "      <td>0.0</td>\n",
              "      <td>228.0</td>\n",
              "      <td>0.0</td>\n",
              "      <td>932.0</td>\n",
              "      <td>594.0</td>\n",
              "      <td>365</td>\n",
              "      <td>41.052780</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>4</th>\n",
              "      <td>198.6</td>\n",
              "      <td>132.4</td>\n",
              "      <td>0.0</td>\n",
              "      <td>192.0</td>\n",
              "      <td>0.0</td>\n",
              "      <td>978.4</td>\n",
              "      <td>825.5</td>\n",
              "      <td>360</td>\n",
              "      <td>44.296075</td>\n",
              "    </tr>\n",
              "  </tbody>\n",
              "</table>\n",
              "</div>\n",
              "      <button class=\"colab-df-convert\" onclick=\"convertToInteractive('df-536c7d13-0377-4de9-9199-e2a2077efd84')\"\n",
              "              title=\"Convert this dataframe to an interactive table.\"\n",
              "              style=\"display:none;\">\n",
              "        \n",
              "  <svg xmlns=\"http://www.w3.org/2000/svg\" height=\"24px\"viewBox=\"0 0 24 24\"\n",
              "       width=\"24px\">\n",
              "    <path d=\"M0 0h24v24H0V0z\" fill=\"none\"/>\n",
              "    <path d=\"M18.56 5.44l.94 2.06.94-2.06 2.06-.94-2.06-.94-.94-2.06-.94 2.06-2.06.94zm-11 1L8.5 8.5l.94-2.06 2.06-.94-2.06-.94L8.5 2.5l-.94 2.06-2.06.94zm10 10l.94 2.06.94-2.06 2.06-.94-2.06-.94-.94-2.06-.94 2.06-2.06.94z\"/><path d=\"M17.41 7.96l-1.37-1.37c-.4-.4-.92-.59-1.43-.59-.52 0-1.04.2-1.43.59L10.3 9.45l-7.72 7.72c-.78.78-.78 2.05 0 2.83L4 21.41c.39.39.9.59 1.41.59.51 0 1.02-.2 1.41-.59l7.78-7.78 2.81-2.81c.8-.78.8-2.07 0-2.86zM5.41 20L4 18.59l7.72-7.72 1.47 1.35L5.41 20z\"/>\n",
              "  </svg>\n",
              "      </button>\n",
              "      \n",
              "  <style>\n",
              "    .colab-df-container {\n",
              "      display:flex;\n",
              "      flex-wrap:wrap;\n",
              "      gap: 12px;\n",
              "    }\n",
              "\n",
              "    .colab-df-convert {\n",
              "      background-color: #E8F0FE;\n",
              "      border: none;\n",
              "      border-radius: 50%;\n",
              "      cursor: pointer;\n",
              "      display: none;\n",
              "      fill: #1967D2;\n",
              "      height: 32px;\n",
              "      padding: 0 0 0 0;\n",
              "      width: 32px;\n",
              "    }\n",
              "\n",
              "    .colab-df-convert:hover {\n",
              "      background-color: #E2EBFA;\n",
              "      box-shadow: 0px 1px 2px rgba(60, 64, 67, 0.3), 0px 1px 3px 1px rgba(60, 64, 67, 0.15);\n",
              "      fill: #174EA6;\n",
              "    }\n",
              "\n",
              "    [theme=dark] .colab-df-convert {\n",
              "      background-color: #3B4455;\n",
              "      fill: #D2E3FC;\n",
              "    }\n",
              "\n",
              "    [theme=dark] .colab-df-convert:hover {\n",
              "      background-color: #434B5C;\n",
              "      box-shadow: 0px 1px 3px 1px rgba(0, 0, 0, 0.15);\n",
              "      filter: drop-shadow(0px 1px 2px rgba(0, 0, 0, 0.3));\n",
              "      fill: #FFFFFF;\n",
              "    }\n",
              "  </style>\n",
              "\n",
              "      <script>\n",
              "        const buttonEl =\n",
              "          document.querySelector('#df-536c7d13-0377-4de9-9199-e2a2077efd84 button.colab-df-convert');\n",
              "        buttonEl.style.display =\n",
              "          google.colab.kernel.accessAllowed ? 'block' : 'none';\n",
              "\n",
              "        async function convertToInteractive(key) {\n",
              "          const element = document.querySelector('#df-536c7d13-0377-4de9-9199-e2a2077efd84');\n",
              "          const dataTable =\n",
              "            await google.colab.kernel.invokeFunction('convertToInteractive',\n",
              "                                                     [key], {});\n",
              "          if (!dataTable) return;\n",
              "\n",
              "          const docLinkHtml = 'Like what you see? Visit the ' +\n",
              "            '<a target=\"_blank\" href=https://colab.research.google.com/notebooks/data_table.ipynb>data table notebook</a>'\n",
              "            + ' to learn more about interactive tables.';\n",
              "          element.innerHTML = '';\n",
              "          dataTable['output_type'] = 'display_data';\n",
              "          await google.colab.output.renderOutput(dataTable, element);\n",
              "          const docLink = document.createElement('div');\n",
              "          docLink.innerHTML = docLinkHtml;\n",
              "          element.appendChild(docLink);\n",
              "        }\n",
              "      </script>\n",
              "    </div>\n",
              "  </div>\n",
              "  "
            ]
          },
          "metadata": {},
          "execution_count": 2
        }
      ]
    },
    {
      "cell_type": "markdown",
      "source": [
        "You can see here the various ingredients going into each variety of concrete. We'll see in a moment how adding some additional synthetic features derived from these can help a model to learn important relationships among them.\n",
        "\n",
        "We'll first establish a baseline by training the model on the un-augmented dataset. This will help us determine whether our new features are actually useful.\n",
        "\n",
        "Establishing baselines like this is good practice at the start of the feature engineering process. A baseline score can help you decide whether your new features are worth keeping, or whether you should discard them and possibly try something else."
      ],
      "metadata": {
        "id": "U_NSBLCPv8fb"
      }
    },
    {
      "cell_type": "code",
      "source": [
        "df.columns"
      ],
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/"
        },
        "id": "3V4WKk5WwKzE",
        "outputId": "1de25150-6b70-4c58-fe1a-61abb418d0f6"
      },
      "execution_count": 8,
      "outputs": [
        {
          "output_type": "execute_result",
          "data": {
            "text/plain": [
              "Index(['Cement (component 1)(kg in a m^3 mixture)',\n",
              "       'Blast Furnace Slag (component 2)(kg in a m^3 mixture)',\n",
              "       'Fly Ash (component 3)(kg in a m^3 mixture)',\n",
              "       'Water  (component 4)(kg in a m^3 mixture)',\n",
              "       'Superplasticizer (component 5)(kg in a m^3 mixture)',\n",
              "       'Coarse Aggregate  (component 6)(kg in a m^3 mixture)',\n",
              "       'Fine Aggregate (component 7)(kg in a m^3 mixture)', 'Age (day)',\n",
              "       'Concrete compressive strength(MPa, megapascals) '],\n",
              "      dtype='object')"
            ]
          },
          "metadata": {},
          "execution_count": 8
        }
      ]
    },
    {
      "cell_type": "code",
      "source": [
        "X = df.copy()\n",
        "y = X.pop(df.columns[-1])\n",
        "\n",
        "# Train and score baseline model\n",
        "baseline = RandomForestRegressor(criterion=\"absolute_error\", random_state=0)\n",
        "baseline_score = cross_val_score(\n",
        "    baseline, X, y, cv=5, scoring=\"neg_mean_absolute_error\"\n",
        ")\n",
        "baseline_score = -1 * baseline_score.mean()\n",
        "\n",
        "print(f\"MAE Baseline Score: {baseline_score:.4}\")"
      ],
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/"
        },
        "id": "Eai4kjzTvbyK",
        "outputId": "49388086-124a-4856-8b0b-d26140471733"
      },
      "execution_count": 10,
      "outputs": [
        {
          "output_type": "stream",
          "name": "stdout",
          "text": [
            "MAE Baseline Score: 8.397\n"
          ]
        }
      ]
    },
    {
      "cell_type": "markdown",
      "source": [
        "If you ever cook at home, you might know that the *ratio* of ingredients in a recipe is usually a better predictor of how the recipe turns out than their absolute amounts. We might reason then that ratios of the features above would be a good predictor of `CompressiveStrength`. The cell below adds three new ratio features to the dataset."
      ],
      "metadata": {
        "id": "HktfrfbRwtbd"
      }
    },
    {
      "cell_type": "code",
      "source": [
        "X = df.copy()\n",
        "y = X.pop(df.columns[-1])\n",
        "\n",
        "# Create synthetic features\n",
        "X[\"FCRatio\"] = X[df.columns[-2]] / X[df.columns[-3]]\n",
        "X[\"AggCmtRatio\"] = (X[df.columns[-3]] + X[df.columns[-2]]) / X[df.columns[0]]\n",
        "X[\"WtrCmtRatio\"] = X[df.columns[3]] / X[df.columns[0]]\n",
        "\n",
        "# Train and score model on dataset with additional ratio features\n",
        "model = RandomForestRegressor(criterion=\"absolute_error\", random_state=0)\n",
        "score = cross_val_score(\n",
        "    model, X, y, cv=5, scoring=\"neg_mean_absolute_error\"\n",
        ")\n",
        "score = -1 * score.mean()\n",
        "\n",
        "print(f\"MAE Score with Ratio Features: {score:.4}\")"
      ],
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/"
        },
        "id": "VipL8SUpv-te",
        "outputId": "f9731138-bb2e-4f12-c898-7c328c509aa7"
      },
      "execution_count": 9,
      "outputs": [
        {
          "output_type": "stream",
          "name": "stdout",
          "text": [
            "MAE Score with Ratio Features: 7.732\n"
          ]
        }
      ]
    },
    {
      "cell_type": "markdown",
      "source": [
        "And sure enough, performance improved! This is evidence that these new ratio features exposed important information to the model that it wasn't detecting before."
      ],
      "metadata": {
        "id": "O804b4pcwzT-"
      }
    },
    {
      "cell_type": "markdown",
      "source": [
        "### Mathematical Transforms"
      ],
      "metadata": {
        "id": "aeRCTnD7SVkz"
      }
    },
    {
      "cell_type": "markdown",
      "source": [
        "We'll use four datasets that having a range of feature types: [*US Traffic Accidents*](https://www.kaggle.com/sobhanmoosavi/us-accidents), [*1985 Automobiles*](https://www.kaggle.com/toramky/automobile-dataset), [*Concrete Formulations*](https://www.kaggle.com/sinamhd9/concrete-comprehensive-strength), and [*Customer Lifetime Value*](https://www.kaggle.com/pankajjsh06/ibm-watson-marketing-customer-value-data). The following hidden cell loads them up."
      ],
      "metadata": {
        "id": "ije82vOGSYeD"
      }
    },
    {
      "cell_type": "code",
      "source": [
        "!kaggle datasets download -d sobhanmoosavi/us-accidents\n",
        "!kaggle datasets download -d toramky/automobile-dataset\n",
        "!kaggle datasets download -d pankajjsh06/ibm-watson-marketing-customer-value-data"
      ],
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/"
        },
        "id": "TZI8rQ6STVPz",
        "outputId": "933e3a57-a1b5-47f3-a635-81519d9a7d86"
      },
      "execution_count": 6,
      "outputs": [
        {
          "output_type": "stream",
          "name": "stdout",
          "text": [
            "Downloading us-accidents.zip to /content\n",
            " 96% 257M/269M [00:10<00:00, 23.8MB/s]\n",
            "100% 269M/269M [00:10<00:00, 27.4MB/s]\n",
            "Downloading automobile-dataset.zip to /content\n",
            "  0% 0.00/4.87k [00:00<?, ?B/s]\n",
            "100% 4.87k/4.87k [00:00<00:00, 2.38MB/s]\n",
            "Downloading ibm-watson-marketing-customer-value-data.zip to /content\n",
            "  0% 0.00/345k [00:00<?, ?B/s]\n",
            "100% 345k/345k [00:00<00:00, 67.1MB/s]\n"
          ]
        }
      ]
    },
    {
      "cell_type": "code",
      "source": [
        "!unzip -qq us-accidents.zip\n",
        "!unzip -qq automobile-dataset.zip\n",
        "!unzip -qq ibm-watson-marketing-customer-value-data.zip"
      ],
      "metadata": {
        "id": "7u33Hc2QTwTk"
      },
      "execution_count": 8,
      "outputs": []
    },
    {
      "cell_type": "code",
      "source": [
        "accidents = pd.read_csv(\"US_Accidents_Dec21_updated.csv\")\n",
        "autos = pd.read_csv(\"Automobile_data.csv\")\n",
        "concrete = pd.read_excel(\"Concrete_Data.xls\")\n",
        "customer = pd.read_csv(\"WA_Fn-UseC_-Marketing-Customer-Value-Analysis.csv\")"
      ],
      "metadata": {
        "id": "mylsSoG-wp1j"
      },
      "execution_count": 9,
      "outputs": []
    },
    {
      "cell_type": "markdown",
      "source": [
        "Relationships among numerical features are often expressed through mathematical formulas, which you'll frequently come across as part of your domain research. In Pandas, you can apply arithmetic operations to columns just as if they were ordinary numbers.\n",
        "\n",
        "In the *Automobile* dataset are features describing a car's engine. Research yields a variety of formulas for creating potentially useful new features. The \"stroke ratio\", for instance, is a measure of how efficient an engine is versus how performant:"
      ],
      "metadata": {
        "id": "jHrHH1C_UQ8E"
      }
    },
    {
      "cell_type": "code",
      "source": [
        "autos.replace(\"?\", np.nan, inplace = True)\n",
        "avg_bore=autos['bore'].astype('float').mean(axis=0)\n",
        "autos[\"bore\"].replace(np.nan, avg_bore, inplace=True)\n",
        "avg_stroke = autos[\"stroke\"].astype(\"float\").mean(axis=0)\n",
        "autos[\"stroke\"].replace(np.nan, avg_stroke, inplace=True)"
      ],
      "metadata": {
        "id": "gW5Nr7OgUfWc"
      },
      "execution_count": 30,
      "outputs": []
    },
    {
      "cell_type": "code",
      "source": [
        "autos[[\"bore\", \"stroke\"]] = autos[[\"bore\", \"stroke\"]].astype(\"float\")\n",
        "autos[\"stroke_ratio\"] = autos.stroke/ autos.bore\n",
        "autos[[\"stroke\", \"bore\", \"stroke_ratio\"]].head()"
      ],
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/",
          "height": 206
        },
        "id": "w4Ra4DhfUN2d",
        "outputId": "63b2f52b-ebbf-43bc-a3da-54a0b835a2cd"
      },
      "execution_count": 39,
      "outputs": [
        {
          "output_type": "execute_result",
          "data": {
            "text/plain": [
              "   stroke  bore  stroke_ratio\n",
              "0    2.68  3.47      0.772334\n",
              "1    2.68  3.47      0.772334\n",
              "2    3.47  2.68      1.294776\n",
              "3    3.40  3.19      1.065831\n",
              "4    3.40  3.19      1.065831"
            ],
            "text/html": [
              "\n",
              "  <div id=\"df-d1268d77-b6e8-4a9c-9042-e62cda0b210b\">\n",
              "    <div class=\"colab-df-container\">\n",
              "      <div>\n",
              "<style scoped>\n",
              "    .dataframe tbody tr th:only-of-type {\n",
              "        vertical-align: middle;\n",
              "    }\n",
              "\n",
              "    .dataframe tbody tr th {\n",
              "        vertical-align: top;\n",
              "    }\n",
              "\n",
              "    .dataframe thead th {\n",
              "        text-align: right;\n",
              "    }\n",
              "</style>\n",
              "<table border=\"1\" class=\"dataframe\">\n",
              "  <thead>\n",
              "    <tr style=\"text-align: right;\">\n",
              "      <th></th>\n",
              "      <th>stroke</th>\n",
              "      <th>bore</th>\n",
              "      <th>stroke_ratio</th>\n",
              "    </tr>\n",
              "  </thead>\n",
              "  <tbody>\n",
              "    <tr>\n",
              "      <th>0</th>\n",
              "      <td>2.68</td>\n",
              "      <td>3.47</td>\n",
              "      <td>0.772334</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>1</th>\n",
              "      <td>2.68</td>\n",
              "      <td>3.47</td>\n",
              "      <td>0.772334</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>2</th>\n",
              "      <td>3.47</td>\n",
              "      <td>2.68</td>\n",
              "      <td>1.294776</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>3</th>\n",
              "      <td>3.40</td>\n",
              "      <td>3.19</td>\n",
              "      <td>1.065831</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>4</th>\n",
              "      <td>3.40</td>\n",
              "      <td>3.19</td>\n",
              "      <td>1.065831</td>\n",
              "    </tr>\n",
              "  </tbody>\n",
              "</table>\n",
              "</div>\n",
              "      <button class=\"colab-df-convert\" onclick=\"convertToInteractive('df-d1268d77-b6e8-4a9c-9042-e62cda0b210b')\"\n",
              "              title=\"Convert this dataframe to an interactive table.\"\n",
              "              style=\"display:none;\">\n",
              "        \n",
              "  <svg xmlns=\"http://www.w3.org/2000/svg\" height=\"24px\"viewBox=\"0 0 24 24\"\n",
              "       width=\"24px\">\n",
              "    <path d=\"M0 0h24v24H0V0z\" fill=\"none\"/>\n",
              "    <path d=\"M18.56 5.44l.94 2.06.94-2.06 2.06-.94-2.06-.94-.94-2.06-.94 2.06-2.06.94zm-11 1L8.5 8.5l.94-2.06 2.06-.94-2.06-.94L8.5 2.5l-.94 2.06-2.06.94zm10 10l.94 2.06.94-2.06 2.06-.94-2.06-.94-.94-2.06-.94 2.06-2.06.94z\"/><path d=\"M17.41 7.96l-1.37-1.37c-.4-.4-.92-.59-1.43-.59-.52 0-1.04.2-1.43.59L10.3 9.45l-7.72 7.72c-.78.78-.78 2.05 0 2.83L4 21.41c.39.39.9.59 1.41.59.51 0 1.02-.2 1.41-.59l7.78-7.78 2.81-2.81c.8-.78.8-2.07 0-2.86zM5.41 20L4 18.59l7.72-7.72 1.47 1.35L5.41 20z\"/>\n",
              "  </svg>\n",
              "      </button>\n",
              "      \n",
              "  <style>\n",
              "    .colab-df-container {\n",
              "      display:flex;\n",
              "      flex-wrap:wrap;\n",
              "      gap: 12px;\n",
              "    }\n",
              "\n",
              "    .colab-df-convert {\n",
              "      background-color: #E8F0FE;\n",
              "      border: none;\n",
              "      border-radius: 50%;\n",
              "      cursor: pointer;\n",
              "      display: none;\n",
              "      fill: #1967D2;\n",
              "      height: 32px;\n",
              "      padding: 0 0 0 0;\n",
              "      width: 32px;\n",
              "    }\n",
              "\n",
              "    .colab-df-convert:hover {\n",
              "      background-color: #E2EBFA;\n",
              "      box-shadow: 0px 1px 2px rgba(60, 64, 67, 0.3), 0px 1px 3px 1px rgba(60, 64, 67, 0.15);\n",
              "      fill: #174EA6;\n",
              "    }\n",
              "\n",
              "    [theme=dark] .colab-df-convert {\n",
              "      background-color: #3B4455;\n",
              "      fill: #D2E3FC;\n",
              "    }\n",
              "\n",
              "    [theme=dark] .colab-df-convert:hover {\n",
              "      background-color: #434B5C;\n",
              "      box-shadow: 0px 1px 3px 1px rgba(0, 0, 0, 0.15);\n",
              "      filter: drop-shadow(0px 1px 2px rgba(0, 0, 0, 0.3));\n",
              "      fill: #FFFFFF;\n",
              "    }\n",
              "  </style>\n",
              "\n",
              "      <script>\n",
              "        const buttonEl =\n",
              "          document.querySelector('#df-d1268d77-b6e8-4a9c-9042-e62cda0b210b button.colab-df-convert');\n",
              "        buttonEl.style.display =\n",
              "          google.colab.kernel.accessAllowed ? 'block' : 'none';\n",
              "\n",
              "        async function convertToInteractive(key) {\n",
              "          const element = document.querySelector('#df-d1268d77-b6e8-4a9c-9042-e62cda0b210b');\n",
              "          const dataTable =\n",
              "            await google.colab.kernel.invokeFunction('convertToInteractive',\n",
              "                                                     [key], {});\n",
              "          if (!dataTable) return;\n",
              "\n",
              "          const docLinkHtml = 'Like what you see? Visit the ' +\n",
              "            '<a target=\"_blank\" href=https://colab.research.google.com/notebooks/data_table.ipynb>data table notebook</a>'\n",
              "            + ' to learn more about interactive tables.';\n",
              "          element.innerHTML = '';\n",
              "          dataTable['output_type'] = 'display_data';\n",
              "          await google.colab.output.renderOutput(dataTable, element);\n",
              "          const docLink = document.createElement('div');\n",
              "          docLink.innerHTML = docLinkHtml;\n",
              "          element.appendChild(docLink);\n",
              "        }\n",
              "      </script>\n",
              "    </div>\n",
              "  </div>\n",
              "  "
            ]
          },
          "metadata": {},
          "execution_count": 39
        }
      ]
    },
    {
      "cell_type": "markdown",
      "source": [
        "Data visualization can suggest transformations, often a \"reshaping\" of a feature through powers or logarithms. The distribution of `WindSpeed` in *US Accidents* is highly skewed, for instance. In this case the logarithm is effective at normalizing it:"
      ],
      "metadata": {
        "id": "vHvkZ6ksYS1G"
      }
    },
    {
      "cell_type": "code",
      "source": [
        "accidents.columns"
      ],
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/"
        },
        "id": "bLiCU-mzYYuF",
        "outputId": "6bd19795-f970-432f-9d12-79ac60350f8e"
      },
      "execution_count": 43,
      "outputs": [
        {
          "output_type": "execute_result",
          "data": {
            "text/plain": [
              "Index(['ID', 'Severity', 'Start_Time', 'End_Time', 'Start_Lat', 'Start_Lng',\n",
              "       'End_Lat', 'End_Lng', 'Distance(mi)', 'Description', 'Number', 'Street',\n",
              "       'Side', 'City', 'County', 'State', 'Zipcode', 'Country', 'Timezone',\n",
              "       'Airport_Code', 'Weather_Timestamp', 'Temperature(F)', 'Wind_Chill(F)',\n",
              "       'Humidity(%)', 'Pressure(in)', 'Visibility(mi)', 'Wind_Direction',\n",
              "       'Wind_Speed(mph)', 'Precipitation(in)', 'Weather_Condition', 'Amenity',\n",
              "       'Bump', 'Crossing', 'Give_Way', 'Junction', 'No_Exit', 'Railway',\n",
              "       'Roundabout', 'Station', 'Stop', 'Traffic_Calming', 'Traffic_Signal',\n",
              "       'Turning_Loop', 'Sunrise_Sunset', 'Civil_Twilight', 'Nautical_Twilight',\n",
              "       'Astronomical_Twilight'],\n",
              "      dtype='object')"
            ]
          },
          "metadata": {},
          "execution_count": 43
        }
      ]
    },
    {
      "cell_type": "code",
      "source": [
        "# If the feature has 0.0 values, use np.log1p (log(1+x)) instead of np.log\n",
        "accidents[\"LogWindSpeed\"] = accidents[\"Wind_Speed(mph)\"].apply(np.log1p)\n",
        "\n",
        "# Plot a comparison\n",
        "fig, axs = plt.subplots(1, 2, figsize=(8, 4))\n",
        "sns.kdeplot(accidents[\"Wind_Speed(mph)\"], shade=True, ax=axs[0])\n",
        "sns.kdeplot(accidents.LogWindSpeed, shade=True, ax=axs[1]);"
      ],
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/",
          "height": 284
        },
        "id": "XSYMoCNtYTy1",
        "outputId": "ec76e8a7-6aef-4798-f972-55bca8f39c38"
      },
      "execution_count": 45,
      "outputs": [
        {
          "output_type": "display_data",
          "data": {
            "text/plain": [
              "<Figure size 576x288 with 2 Axes>"
            ],
            "image/png": "iVBORw0KGgoAAAANSUhEUgAAAfcAAAELCAYAAADEJc9FAAAABHNCSVQICAgIfAhkiAAAAAlwSFlzAAALEgAACxIB0t1+/AAAADh0RVh0U29mdHdhcmUAbWF0cGxvdGxpYiB2ZXJzaW9uMy4yLjIsIGh0dHA6Ly9tYXRwbG90bGliLm9yZy+WH4yJAAAgAElEQVR4nO29e5xkZ1X3+/3VrS9zz8zknmECSYDhYoAhRFCIIjEgMnpIXhJFgkYiHuFVLkp4fd+AqEeRc4h6QCBIIEYlwSA4B6LhhQBRICETCLkSGHKdkDDXTM+lu257nT+evat3V1d3V3dX9e6qWt/Ppz5T9eyn9l67pp9n7bWe9awlM8NxHMdxnP4hl7UAjuM4juN0FlfujuM4jtNnuHJ3HMdxnD7DlbvjOI7j9Bmu3B3HcRynz3Dl7jiO4zh9RleVu6TzJN0vaaeky1ocH5J0XXz8Vkmb4/aipKsl3SXpPknv7qacjuM4jtNPdE25S8oDHwZeCWwBLpK0panbJcABMzsNuAJ4f9x+ATBkZs8BXgD8TqL4HcdxHMeZnW5a7mcBO83sATOrANcC25r6bAOujt9fD7xckgADVkgqACNABRjroqyO4ziO0zcUunjuk4BHU593AS+aqY+Z1SQdBNYTFP024HFgFHibme2f7WIbNmywzZs3d0Zyx+ljbr/99r1mtjFrOWbDx7PjtMdM47mbyn0xnAXUgROBdcB/SvqymT2Q7iTpUuBSgE2bNrFjx44lF9Rxeg1JD2ctw1xs3rzZx7PjtMFM47mbbvnHgFNSn0+O21r2iV3wa4B9wK8B/2FmVTPbDXwD2Np8ATO70sy2mtnWjRuXtSHiOH2JpKsk7ZZ09xz9XiipJun8pZLNcQaZbir324DTJZ0qqQRcCGxv6rMduDh+fz5wk4VKNo8APw8gaQVwNvD9LsrqOM7C+BRw3mwd4uDa9wNfWgqBHMfponI3sxrwFuBG4D7gM2Z2j6T3SXpN3O0TwHpJO4G3A8l2uQ8DKyXdQ3hI+KSZ3dktWR3HWRhmdjMwazwM8Fbgs8Du7kvkOA50ec3dzG4Abmhquzz1foKw7a35e4dbtTuO01tIOgn4VeDngBdmLI7jDAyeoc5xnG7y18C7zCyaq6OkSyXtkLRjz549SyCa4/QvyzVa3nGc/mArcG1IX8EG4FWSamb2+eaOZnYlcCXA1q1bbUmldJw+w5W74zhdw8xOTd5L+hTwhVaK3XGczuLK3XGcBSPp08A5wAZJu4D3AEUAM/tohqI5zkAzkMr9cLlGMS+GCvmsRXGcnsbMLppH3zd2S44oMsYmqqwdLXXrEo7TUwxkQN3/9cV7+bc7fpy1GI7jdIgdDx/grZ/+btZiOM6yYSCV+55DFSq1OYN3HcfpEY5UaoxX6lmL4TjLhoFU7k+OVwiJ8BzH6QeqtYi6j2nHaTCQyv3geBWfBhynf6jWjVrdR7XjJAykch8brxFFPhE4Tr9QrUfUfUw7ToPBVO4Tbrk7Tj9RqUXUIo+jcZyEgVPu1XrE0UodX55znP6h4pa740xh4JT72HgVgMi1u+P0De6Wd5ypDJxyPxgrd8dx+odq3aPlHSfNwCp3nwccp3+o1g1fcnecSQZWubtb3nH6Bw+oc5ypDKxyd9XuOP1DpRa55e44KQZOuY+5W95x+o5K3S13x0nTVeUu6TxJ90vaKemyFseHJF0XH79V0ua4/dcl3ZF6RZLO7IRM7pZ3nP6jUovwYHnHmaRryl1SHvgw8EpgC3CRpC1N3S4BDpjZacAVwPsBzOyfzOxMMzsT+A3gQTO7oxNyHSnXOnEax3GWEZWab4VznDTdtNzPAnaa2QNmVgGuBbY19dkGXB2/vx54uSQ19bko/m5HiAwkPP2s4/QRlXrk3jjHSdFN5X4S8Gjq8664rWUfM6sBB4H1TX1eB3y6U0KZQU7ygDrH6SM8iY3jTGVZB9RJehFw1MzunuH4pZJ2SNqxZ8+ets4ZYeTkAXWO0094+lnHmUo3lftjwCmpzyfHbS37SCoAa4B9qeMXMovVbmZXmtlWM9u6cePGtoRKLHd34TlO/xAC6nxMO05CN5X7bcDpkk6VVCIo6u1NfbYDF8fvzwduMgsjVFIO+G90cL0dwMzcLe84fUY1jpY3V/COA0ChWyc2s5qktwA3AnngKjO7R9L7gB1mth34BHCNpJ3AfsIDQMJLgUfN7IFOypUE1Pkk4Dj9Q6Ue9rjXI6OQb47JdZzBo2vKHcDMbgBuaGq7PPV+Arhghu9+DTi7C1K5W95xOoSkq4BXA7vN7Nktjv868C5AwCHgd83se52Wo1oP47kWGYV8p8/uOL3Hsg6o6wbWsNyzlsRx+oJPAefNcvxB4GVm9hzgT4EruyFENbbc/aHdcQJdtdyXI5EH1DlOxzCzm5PMkjMc/2bq4y2EwNqOU0255R3HGUjL3bfCOU5GXAL8ezdOnLjlXbk7TmDgLHcD5NHyjrOkSPo5gnL/mVn6XApcCrBp06Z5nb9Sc8vdcdIMnOUexZa7u+UdZ2mQ9Fzg74FtZrZvpn4LyVuR4G55x5nKwCn3RvpZnwMcp+tI2gT8K/AbZvaDbl2nWo/I50TdB7bjAIPolo+Vu+M4i0fSp4FzgA2SdgHvAYoAZvZR4HJCvYi/i2tC1cxsa6flqEXGUCFHre7K3XFgEJV7nFve3XeOs3jM7KI5jv828NvdlqNajxgp5n25zXFiBs4tHzLUCTykznH6hmo9WO7+0O44gYFT7r4VznH6iygy6pFRdOXuOA0GT7mTJLHJWhLHcTpBpR5RzIu8PKDOcRIGT7kb5HLywjGO0ydU6xGFXI58Th5Q5zgxA6fcJ/e5Zy2J4zidoFo3igV5WmnHSTFwyh1LMtT5JOA4/UC1HlHM5cjlRM2f2h0HGEDlHtbcPaDOcfqFSi2ikI8td1fujgMMoHIPbnkPqHOcfiFZc88Jt9wdJ2bglPtkPXefBBynH6jWjUJO5HNuuTtOwuApdwzhVeEcp1+oRSGvfM63wjlOg64qd0nnSbpf0k5Jl7U4PiTpuvj4rZI2p449V9K3JN0j6S5Jw52QKdkK51G1jtMfRFHwxuXlAXWOk9A15S4pD3wYeCWwBbhI0pambpcAB8zsNOAK4P3xdwvAPwJvNrNnEQpTVDshVygc4wF1jtMvRGbkckLC3fKOE9NNy/0sYKeZPWBmFeBaYFtTn23A1fH764GXKyR+Pxe408y+B2Bm+8ys3gmhIkJAnW+Fc5z+oG5GjrDm7pa74wS6qdxPAh5Nfd4Vt7XsY2Y14CChPOQZgEm6UdJ3JP1Rx6RKLPeoY2d0HCdDknoRvhXOcSZZriVfC8DPAC8EjgJfkXS7mX0l3UnSpcClAJs2bWrrxMlWOJ8CHKc/qEchMVUu51vhHCehm5b7Y8Apqc8nx20t+8Tr7GuAfQQr/2Yz22tmR4EbgOc3X8DMrjSzrWa2dePGjW0JFdbcPaDOcfqFepSy3H1cOw7QXeV+G3C6pFMllYALge1NfbYDF8fvzwdusrAB/UbgOZJGY6X/MuDeTghlJPvcO3E2x3GyxsyC5S55yVfHiemaW97MapLeQlDUeeAqM7tH0vuAHWa2HfgEcI2kncB+wgMAZnZA0gcJDwgG3GBmX+yQXB5Q5zh9RD1Zc3e3vOM06Oqau5ndQHCpp9suT72fAC6Y4bv/SNgO11GiOKDO5wDH6Q+iOHdFDg+oc5yEAcxQF4Jv3HB3nP4ginwrnOM0M3jK3Swku3Dt7jh9QRSPaQkPqHOcmAFU7iGq1gvHOE5/kI6Wr9V9XDsODKRyjwPqfA5wnEUj6SpJuyXdPcNxSfrbuH7EnZKmbWldLI01d68Z4TgNBk+54wF1jtNBPgWcN8vxVwKnx69LgY90WoDIQqXHvG+Fc5wGg6fcLQTUuVvecRaPmd1M2MY6E9uAf7DALcBaSSd0Uob0mrsH1DlOYOCUexTvifUpwHGWhHZqTAAhnbSkHZJ27Nmzp+0LhDV3eW55x0kxcMrdSOq5Zy2J4zhpFpJOOnyPOKDOLXfHSRg85W5GLv7XcZyu006NiUVRjzz9rOM0M3jKnWC5u253nCVhO/CGOGr+bOCgmT3eyQtEjfSzohZ5LWfHgeVb8rVr+D53x+kckj4NnANskLQLeA9QBDCzjxLST78K2Eko3/ybnZYhShWOcd3uOIEBVO4hstZVu+MsHjO7aI7jBvxeN2VI6kXkJer+0O44wCC65Q2Eu+Udp18Ia+5xVbi6m+6OAwOq3HM5z0HtOP1CCJL1JDaOk2bwlDtJPXfHcfqBxHKXvCqc4yQMnnI3EG65O06/EMVZJ/M5t9wdJ2HwlDthy4yb7o7TH0SWZKjzJDaOkzBwyj2ZCHwKcJz+IMkt7+lnHWeSgVPuSapKnwQcpz+oR2GpLZ/zNXfHSeiqcpd0nqT741rOl7U4PiTpuvj4rZI2x+2bJY1LuiN+fbRTMnlAneP0F5FZqOcufJ+748R0LYmNpDzwYeAVhEpQt0nabmb3prpdAhwws9MkXQi8H3hdfOxHZnZmxwWLLXfX7o7TH0SRIYhzy/s+d8eB7lruZwE7zewBM6sA1xJqO6fZBlwdv78eeLkkdVGmOJuVPFrecfqEZEx7+lnHmaSbyr2dOs6NPmZWAw4C6+Njp0r6rqSvS/rZVhdYSP1nw9PPOk4/UY8D6pRzt7zjJCzXgLrHgU1m9jzg7cA/S1rd3Gkh9Z+9cIzj9Bf1KJq03H1YOw7QXeXeTh3nRh9JBWANsM/Myma2D8DMbgd+BJzRCaGSrXA+CThOfxBFxFXh8DV3x4nppnK/DThd0qmSSsCFhNrOabYDF8fvzwduMjOTtDEOyEPSU4HTgQc6JVhwy7t2d5x+oJ7Uc/c1d8dp0LVoeTOrSXoLcCOQB64ys3skvQ/YYWbbgU8A10jaCewnPAAAvBR4n6QqEAFvNrP9nZErcct34myO42TNZIY6L/nqOAldreduZjcANzS1XZ56PwFc0OJ7nwU+2xWZiC13nwMcpy+IGoVjvGaE4yQs14C6rjGZftYnAcfpB9KWu2eedJzAwCl3a+xzz1oSx3E6QT2iL9bczYy7HzuYtRhOnzBwyh3CROBb4RynP0gs9153yz+y/yhv+ocdWYvh9AkDp9wtnggcx+kP6tFkVbheDqgbr9Y5WqlnLYbTJwycco8sZLJyt7zj9Afpeu69vOY+UY0Yr7pydzpDW8pd0r9K+iVJPf8wYEAOz1DnOM0sdJy3Uf1xk6Svxumk75T0qs5JnVjuIpfr7ViaiWqdSi2i3ss34Swb2h3Efwf8GvBDSX8p6eldlKmrmBm5nOeWd5wWzHucp6o/vhLYAlwkaUtTt/8JfCZOJ31hfJ2OEcWVHkVv55afiK32xHrfPTbBzt2HsxTJ6WHaUu5m9mUz+3Xg+cBDwJclfVPSb0oqdlPATuNJbBynNQsc5+1UfzQgqQ2xBvhxJ+WOEsu9x7fCTVRDqP/RSg2Az333MT5+c8cSczoDRtvuN0nrgTcCvw18F/gbwiTwv7siWZcIVeHcLe84rVjAOG+n+uN7gddL2kVIavXWzkmcrLlDLtfbAXXlWrDYJypBye8+VOZIrOgdZ760u+b+OeA/gVHgl83sNWZ2nZm9FVjZTQE7jcUuvB5+wHecrtDFcX4R8CkzOxl4FSHl9LS5ZyElnCHJLS9y9HbmyWa3/N5DZY+edxZMu+lnPx6nkm0gaSiu3ra1C3J1FUm+5u4401nIOG+n+uMlwHkAZvYtScPABmB3upOZXQlcCbB169a2h2iy5p7LqaeD0Zrd8nsPl3vaE+FkS7tu+T9r0fatTgqyVCQuPHfLO840FjLO26n++AjwcgBJzwSGgfZN8zmYXHPvvSQ2dz92sBEnMM1yP1xhPLbc/+KG+/jKfT/JRkinJ5nVcpd0PGH9bETS8wgBqRCCY0a7LFtX8IA6x5nKYsZ5m9Uf3wF8XNLbCMF1b7QOPl1PZqhTzyn33/un7/CxN7yAZxy/umG5Jwp9/5EKa0dDHOP9TxxitJTn5c88LjNZnd5iLrf8LxKCa04GPphqPwT8jy7J1FWMOP2sO+YdJ2FR47yN6o/3Ai/phKCtSGeo67Xc8k+OVyknSr1ai/+tE0XG/qMVhorBuTo2UeXhfUczk9PpPWZV7mZ2NXC1pNfGZVh7HrMkWj5rSRxnedDr4zyKvXE59dY+9ygyxsarlGtBuTfc8pU6YxNV6pE1rPjD5RoP73fl7rTPXG7515vZPwKbJb29+biZfbDF15Y17pZ3nKn0+jiPLKnn3ltbXA+VaxhQqSXu+IicguW+93CZdaPFxvr7oYkaB8erGUrr9BpzBdStiP9dCaxq8eo53C3vONPo6XEeRZO55XspWn4sVtaN/e3VOiuHCoxX6uw9XOG41cNMVOuYGUfKNfYcKlOpRfzVf3zfFb0zJ3O55T8W//snSyNO90mqwvXQHOA4XaXXx3k9SWLTY+M6UdANy71WZ+VwgaOVOvsOV1g3WiKfE+VaxJFynfUrSjyy/ygf/88HOOfpx3LWqcdkKb6zzGk3ic1fSVotqSjpK5L2SHp9G9+bq6DEkKTr4uO3StrcdHyTpMOS3tnuDc1FsNx7y33nOEvBQsd51kyuufdWtPzBhuWerLlHrBoqMl6pc6RSY7iYY7iYZ9+RCoW8OHHtCP/5wz1U68ZjT/r6uzM77e5zP9fMxoBXE3JOnwb84WxfaLOgxCXAATM7DbgCeH/T8Q8C/96mjG1hBl7O3XFaMu9xvhyIomTNvbf2uTdb7hPVOquGCxyt1Jio1inlcwwX8vxkbIIVQwVO3bCCa28LmX4fOzCemdxOb9Cuck/c978E/IuZHWzjO+0UlNgGXB2/vx54uRRUr6RfAR4E7mlTxrYw3C3vODOwkHGeOZP13HtrK9zBpjX3crzmfqRSZ6Jap1jIMVzMsXtsghWlPM84fjX3P3GIFaW8b4tz5qRd5f4FSd8HXgB8RdJGYGKO77RTUKLRx8xqwEFgvaSVwLuAWdcAF5KLOrHc3S3vONNYyDjPnCgKYzqXWz5b4e57fGzOPi3d8sMFxqt1xisRxXyOoWKen4yVGS0VOOO4VeQEzz5pDbvccnfmoN2Sr5cBLwa2mlkVOMJ0K7yTvBe4wsxmLWZsZlea2VYz27px48a2TtzYCtcBIR2nn8hgnHeEycIxyyOW5ki5xrYPfWPOfgePVhAp5V6rs3K4yNFKnfFqjVI+x1Ahx+5DE4yU8oyU8jz/Kes4+6nreexJV+7O7LRbOAbgGYR9sOnv/MMs/dspKJH02RWfdw2wD3gRcL6kvwLWApGkCTP70DzkbUlwy/d29SjH6SLzHeeZk9SLUFztMUlUlRWHyzUq9Yh6ZORzM8tx4GiVVSPFxpp7ObHcKzXGK3VKhWTNvcxIKQ/AO17xdCaqdT7y9R9lfp/O8qYt5S7pGuBpwB1AUoPQmH3QNwpKEJT4hcCvNfXZDlxMKE5xPnBTnHP6Z1PXfi9wuBOKHRK3vHyfu+M0scBxnjlJ4ZjJ4jGQz1DnHZoIaWQrtaihlFvx5HiVtSPFyTX3Wp1V8T738Wqd1cNFSsUcPxmbYKQ4eZ7hYp7hYo69hytsXDXU3ZtxepZ2LfetwJb5FHtos6DEJwi1nXcC+wkPAF0lqefulrvjTGPe43w5kGyFAxrFY/Jka7nD3Mr94NEqa0eLjYIx5VrE6pHYLV+ps2HlEEOFHI8/OcFpx66c8t1jRkvsPjThyt2ZkXaV+93A8cDj8zl5GwUlJoAL5jjHe+dzzTllwsjlPP2s47RgQeM8a5IkNgB5hZruxZl1atc5Eiv3cr0OFGfsN14JlnraLb96uMjhco3xanDLD+WD5f7sk9ZM+e660RK7D5V5Vtfuwul12lXuG4B7JX0bKCeNZvaarkjVRcwIgTfulnecZnpynCdZJyFEzGe91z3tlp+NSj1ifbHERK1OtR5hGCuHCnFAXdjnXirkeHK8yrrRqQ8Ja0aL7Bkrz3Bmx2lfub+3m0IsJUYyAWQtieMsO96btQALISn5CiCUeX75I+X2lHstCm77Si2iXIsYKuQYKeU5GgfUDRVyrBou8uyTVvOyp0/dDbRmuMjuQ8t+l6KTIW0pdzP7uqSnAKeb2ZcljRLW0XuOxlO+K3fHmUKvjvP0mvtyeHBvrLnX51DudWO4mOfgeIVynLQmnxPFfI4DR6uUCnle+Zzj+aXnntC4v4S1o0WeOOjK3ZmZdnPLv4mQQe5jcdNJwOe7JVQ3aSSxce3uOFPo1XGelHyFsOYeZazdD7dpuVfrESPFPOWaUamHpDUAo6U8+49UKBVyFHK5aYodYO1oiZ+45e7MQrsZ6n4PeAkwBmBmPwSO7ZZQ3SQpHJP1073jLEN6cpxHqTV3SZlnqTs0MTVn/EzUomC5l6t1ytWIUkO5Fzg4XmWoMPP0vHa0yG5fc3dmoV3lXo7zwwMQJ7joOfWY7PCR6EHpHafr9OQ4jyIa0fK5ZVA8pt2Aumo9YriYo1KLpljuyfa55HMrkmh5x5mJdpX71yX9D2BE0iuAfwH+v+6J1R2SMe/R8o7Tkp4c59GUaPnsi8ckyr3c5pp7uRZRqUUU48w7ScKauSz3fYcryyLdrrM8aVe5XwbsAe4Cfoewd/1/dkuobmEQUlso+6Abx1mG9OQ4j1JpWPPLwC3f7pp7LTJGinkq9YhyrT7Ncp9NuQ8V8iAaCXAcp5l2o+UjSZ8HPm9m7ZVfW4YkkfKejdlxprPQcS7pPOBvCJH1f29mf9miz38jbLUz4Htm1pyKesFENumWl8g8oO7QRJWVqeQ0MxHc8pNb4RLLfbiQIydmzUsPsKKU59BEddYseM7gMqvlrsB7Je0F7gful7RH0uWzfW+5EsWme/KU7y4tx1ncOJeUBz4MvBLYAlwkaUtTn9OBdwMvMbNnAX/QSfmT3PKQBMtmb7mvSRWEmYmG5R675QuJ5V7MM1TIz1kUZsVQgbF4CcBxmpnLLf82QvTsC83sGDM7hlCx7SWS3tZ16TqMYQ2rXbhr3nFiFjPOzwJ2mtkDcTDetUwvE/sm4MNmdgDAzHZ3UvgolX42p+WQxKbO6uHCrPvczYx6ZAwXc5Rr9dhyD9PxcDE/q0s+YTS23B2nFXP9Bf0GcJGZPZg0mNkDwOuBN3RTsG6Q7HGHuKa7W+6OA4sb5ycBj6Y+74rb0pwBnCHpG5Juid34HSMyUpZ79tHyR8o1Vg3P7pav1o1CnLCmWrdgucdPKEPFPEPFdpR7oRG85zjNzLXmXjSzvc2NZrZH0swVEZYxmsxT6Za74wS6Pc4LwOnAOcDJwM2SnmNmT6Y7SboUuBRg06ZNbZ+82XLPelwfrdRZOTy7W74WRRTyQblXGtHyk2750izb4BJGSnlX7s6MzPUXVFngsWVJZFPd8r4dznGAxY3zx4BTUp9PjtvS7AK2m1k19g78gKDsp2BmV5rZVjPbunHjxubDM9K8FS5rt3ySeW42t3y1ZuRzopAX1XrERK0+uRWulKfUhlt+pDjdLX/gSMXT0jrA3Jb7T0kaa9EuYLgL8nSV6W75bOVxnGXCYsb5bcDpkk4lKPULgeZI+M8DFwGflLSB4KZ/YHEiTzKlnjtkqtzNjFpkDBVylGdzy0cRxTi1bD4njpbrDbf8SDE/awKbhKDcp1run/zGgzy47wj/70XPX9yNOD3PrMrdzPpqj0UIlp90y7tyd5zFjXMzq0l6C3AjYSvcVWZ2j6T3ATvMbHt87FxJ9wJ14A/NbF8nZIckWj68z+WyfWivR2GJoFjIUa7WZ+xXqxv52FIv5nMcmqg2ouVPWDPMGcetmvNaoejMVMv9vifG+P7jhxZxB06/0G7J174gXWDC3fKO0xnM7AZCwpt02+Wp9wa8PX514fqpqnAi0yQ2tcgo5HIUc3NY7vXJALpSIcfYRK3x+ZRjRrnorLljDkZLecaa3PL3P3GYXQfGOXCkwroVpUXcidPrtJuhri8wo7HmnnPL3XH6gnr6oT3jrXDVehSXbdUc0fIRhdxkAN2BI5WG5d4uo6WplvtEtc4TYxNsOXE1d+x6cpZvOoNAV5W7pPMk3S9pp6TLWhwfknRdfPxWSZvj9rMk3RG/vifpVzsiUCP/LED2yS4cx1kcyXbWXCqJTZZbXOtREigX9q/PRLDwJwPo9h+tUJwjI10zzVvhdu4+zIlrhjnt2JXc+agr90Gna8q9ncxVwCXAATM7DbgCeH/cfjew1czOBM4DPhZXqFoURro0ZA+Uu3IcZ1aSNe6EnLINqJvcvz675V6pRY30sqOlPPsOVyi2ESGfptkt/6M9hzlx7QgnrBnmR3uOLOwGnL6hm5Z7O5mrtgFXx++vB14uSWZ21MySR9JhOqSHo5RbXgLzmguO09OkI+UhzlCX6Zp7RD4vCrncrFXhapFRSHLJF/PsO1JuuOnbZaSU53DKch+bqLFyqMBxq4d5aK8r90Gnm8q9ncxVjT6xMj8IrAeQ9CJJ9xAqVL05pewXjKUW3eVlXx2n50nvcYekcEx28tTatNzD2vzkmvv+I5XGPvd2WdHklh+v1Cjmcxy/epiH9x9d2A04fcOyDagzs1vjIhMvBN4tadp+W0mXStohaceePXMXsUpvhfOAOsfpfeqRkTZ48xkXjkmi4Atx5rm5+gEMF0MK2nb2tqcZKeUb5WUhZMYrFXKNojUHj3re+UGmm8q9ncxVjT7xmvoaYMr+VzO7DzgMPLv5AvPNaJVOU8kyyEHtOM7iCFknl5Nb3sjncnNa7omFD8EtD8xbuYdEOZNBe0fLdYYKOSRx4tphHtrnrvlBppvKvZG5SlKJkLlqe1Of7cDF8fvzgZvMzOLvFAAkPQV4BvDQoiVKjfnglnccp5eJIqZY7lnXc6/VLd4KN7flnm9S7oV5uuWL+RzlatTYHXC0UmOoEM513GpX7oNO15LYtJm56hPANZJ2AvsJDwAAPwNcJqkKRMD/2aqwxbxlYmr1KDfcHae3iczITwmoy7YgVC0KSruQ0+y55euTAXUjsXJvp1hMmnxO5HKiWjdKBXGkUmfjqjClb1w1xMP7fN19kOlqhro2MldNABe0+N41wDWdl2cyt3x8naZITmUAACAASURBVE5fwnGcJSQksEkp94wLx1TbtNxrUdQIBBxZoOUOwTU/UQtr7eOVeqMO/MZVQ265DzjLNqCuG0ypCid3yztOrzMljoaw3JZlLE2tEVA3l+UeTUliA/Nfc4dg7Zer4TpH0m75VcM84pb7QDNQyj0dLS93yztOzxNFTN8Kl3lAXTtr7pOFYxqW+zwz1EHISz8RF6gZr05a7seuGuLRA67cB5nBUu5T9rl7tLzj9Dp1M3IppZjP3C0/ueZencNyT2IFEst9vmvuEJR7UqBmvFJnuBjOsX7lEPuPVGZNgev0NwOm3Gm48Nwt7zi9Tz1e407I+qG9HoUAv2I+N6tbvpaSe3LNfWFu+YblXqk33PL5nNiwcojHDozP+5xOfzBwyr3hlifbLTOO4yyeWhRNiZYPVeGykycJqCvkQxT7zP1SVeEaa+7zd8sX05Z7NQTWJRznmeoGmsFS7qTc8vMfR47jLDOSNe6EXC7rNfe45GsuR7UWzbgjp1qfDAQcWWASG0gC6tKW++Q5Nqwsscst94FlsJS7Td6wJA+oc5wepzbNLa9lkcQmlxM5idoMstRSSWwWpdzjrXAAE7V6IyEOhHX3Rz1ifmAZKOUemTUs9qzX5hzHWTz1ZstdZJp+Np15LrjmW68RVOM0tRD25v/uy562MLd8XpSrEVFklKvRFLf8sauGeHi/73UfVAZKuYchP7nm7qrdcXqb5jX3nJRphrokoA6YdTtcpVafsvXtpWdsnJKMp11K+WC5J4ls0tsCN64c4tH97pYfVAZLuacy1AW3vKt3x+llQlW4pvSzWW6FS3kSZisek04/uxgKcRKbo5U6Q8Wp0/nGVUM89qQr90FloJQ7pNzyGeegdhxn8VTrRlpHhmj5bDPUTbrlZ94Ol3bfL4ZSXkxU62GPeyE/5diakSLlWn1KWVhncBgo5R41bYVzx7zj9DbTLfes089awzVemtVy74xyL+TDVrjx6tRgOggPOsetGmaXZ6obSAZKuacS1Hm0vON0CEnnSbpf0k5Jl83S77WSTNLWTl27FkVT1q6zTj9bjSKSoPfZLXdr7HNfDMV8jokZ3PIQXPOeY34wGSzlTnP62UzFcZyeR1Ie+DDwSmALcJGkLS36rQJ+H7i1k9evRzY1tzxkmsQmbIUL02ohJ6q1Gfa51zrlls8xXq2FWu4tttJtXDXEo77XfSAZLOVuk0UmpFjZO46zGM4CdprZA2ZWAa4FtrXo96fA+4GJTl58ehKbjN3y0WRympCCtnVu92qTx2GhJJb7eKXOUJNbHmDDyiEe9tKvA8lAKff0oJdElOETvuP0CScBj6Y+74rbGkh6PnCKmX1xthNJulTSDkk79uzZ09bFa/UWa+6ZB9SFaTVEy8+UxMY6otxLhRBQdyRVNCbNsauGeMjd8gPJQCn39Jo7uOXuON1GUg74IPCOufqa2ZVmttXMtm7cuLGt809bcyfbJDaVdLR8buY190qHAuqK8T73o+XJWu5pjl09zC7PLz+QDJRyh8l97jmv5+44neAx4JTU55PjtoRVwLOBr0l6CDgb2N6poLppa+7LwHIvpDLUzZzEJlpQFbhmQj33iMPl2oyW+2NPjntOjwGkq8p9rihaSUOSrouP3yppc9z+Ckm3S7or/vfnOyFPSD87ORH437vjLJrbgNMlnSqpBFwIbE8OmtlBM9tgZpvNbDNwC/AaM9vRiYvXIiMddJ59+lmbss99pvSzlVq0oHSzzRTjwjFHU+Ve0wwX84wU8+w5VF70tZzeomvKvc0o2kuAA2Z2GnAFIeAGYC/wy2b2HOBi4JpOyDRtK5y75R1nUZhZDXgLcCNwH/AZM7tH0vskvabb10+ne4Ww5p5lEpspyj03u+W+kEIxzZTigLrDEzWGC63P56VfB5NCF8/diKIFkJRE0d6b6rMNeG/8/nrgQ5JkZt9N9bkHGJE0ZGaLevw0mFLy1S13x1k8ZnYDcENT2+Uz9D2nk9eu1aMpbvmQfraTV5inPKlc97O55TuVxKZYyDFRrcdu+emWO8Bxq4d4dP9RXrj5mEVfz+kduumWnzOKNt0ntgAOAuub+rwW+M5iFXt8DXKpDHVeFc5xeptWW+GydMunS9AW5wio65TlXq5Fsyr39b4dbiDppuW+aCQ9i+CqP3eG45cClwJs2rRpzvNFRiqJjdwp7zg9TnNAXfZu+UmLPD+XW74jW+FylGt1jpRrjbrwzRy7aoiH9rpbftDopuU+VxTtlD6SCsAaYF/8+WTgc8AbzOxHrS4w/60zllpzxyNIHafHSSeNgezTz6a35hVymtVy70S0/HAhx5FycMu3Sj8LYTucr7kPHt1U7rNG0cZsJwTMAZwP3GRmJmkt8EXgMjP7RqcECiVfU/XcXbc7Tk/TqnDMcgmoy+dEddaAusVb7qtHiuw/UpnVcj9uVVhzdwaLrin3NqNoPwGsl7QTeDuQbJd7C3AacLmkO+LXsYuVKZoWLe84Ti9TrUdN0fIZF45pKvlankG516LOFI4ZLubJ52DPofKMa+7rVpQ4NFFjvNI6Fa7Tn3R1zX2uKFozmwAuaPG9PwP+rAvyTK3n7pVjHKenSQewQbDca/XsxnU9SgfUzZXEZvGWO8Da0RKPH5yYUbnnJI5dPcQj+4/y9ONXdeSazvJnoDLUNQ95V+2O09vUomiKW76QF9UM98LVmpLYzFg4pkPR8hCUO9AyQ13C8auHPWJ+wBgs5W40gm88/azj9D61piQ2hVxuxjKrSyLPFOWulm75Whxk14l97gBrRoIDdqY1d4jruvu6+0AxYMo9tRcOebS84/Q4zW75fE4zpnxdCtKlXIu51mvundrjnrB6uEghp1mj749dNcSDe91yHyQGS7nDlDV3V+2O09s0Z6ibbfvZ0shjjZKvhXzraPlqzTq23g6warjAaGlmqx3CdriHXLkPFIOl3FPa3LfCOU7v05yhrpDP1nKvRVNLvpZbyFKu1yl10HJfM1KcMZgu4bjVw+6WHzAGS7kzmc1KkqefdZweZ5pyz+WoZhgtn44BKM6QW75T5V4T1oyUZkxgk3DsqiF+MlZurPc7/c9AKfep+9zdLe84vU6wlCc/F2ZJHLMk8jQF1LWSpVKLKHXQLX/c6iGOWVGatU8xn2PtaJHHD0507LrO8maglLular564RjH6X3q9am55XvBLd+p1LMJT1m/gsvOe+ac/Y5fM8xDvh1uYBgs5Q6pqnBuujtOr1ONmqPls3XLp9PKFvO5mQPqOrQNbj4cu2qIh/f5uvugMFjKPW25K6zBO47Tu9SjqGnNPeOtcHVrbHMr5FtH7lfq9Y5uhWuXjSt9O9wgMWDKfXLNHSDDRFaO43SAWr0piU3GbvlguYdptZjPUa62iJbvUNGY+XLcmmFX7gPEwCn3BA+oc5zep9ZUFS7LaHkzi9fTgzyjpTyHy7Vp/TodLd8unoJ2sBgs5c5k+lnJM9Q5Tq/TbLlnmaEuZJ5TI8BvRanA2ER1er9aRDGDNffjVg+z68C4z3sDwkAp9ygUdAeSaPls5XEcZ3HUmtfcM3TLl2tT08oOF4MXoXmve7Vu5DOw3IeLeYaLefYeriz5tZ2lZ6CUuzXtc3fHvOP0NvVpSWxELaOn9rB/fXJKlcTKoQIHx6da75V6PRPLHULE/K4DHjE/CAyUcodUPXfklrvjdABJ50m6X9JOSZe1OP52SfdKulPSVyQ9pVPXbpWhLqt67uVaRKkwdUptqdwzWnMH2LBqiMeeHM/k2s7SMlDKPWSoCxPBUDHHkRbBLo7jtI+kPPBh4JXAFuAiSVuaun0X2GpmzwWuB/6qU9evRzatcEy1HmWyrlyu1qdFwc+o3DOy3NevKLHrgCv3QWCglHu64utIMc/YhCt3x1kkZwE7zewBM6sA1wLb0h3M7KtmlviCbwFO7tTFm0u+5nIhoK2egVuuVSnXFUN5xpqUe7kWdbQq3HzYsHKIRzyRzUDQVeXehrtuSNJ18fFbJW2O29dL+qqkw5I+1Cl5DGusuY+W8hw86oEljrNITgIeTX3eFbfNxCXAv3fq4rUootkIDkF1WVju05X7aGm65V5tivBfSjasHOJRX3MfCLqm3Nt0110CHDCz04ArgPfH7RPA/wLe2UmZUsHyLQed4zjdQ9Lrga3AB2Y4fqmkHZJ27Nmzp61z1iOjkJs6jc2UGa7btLTcS/lltea+cdUQj7lbfiDo5l/YnO66+PPV8fvrgZdLkpkdMbP/Iij5jhGZNdbcVwwVeNKVu+MslseAU1KfT47bpiDpF4A/Bl5jZuVWJzKzK81sq5lt3bhxY1sXr0dGk26nmMtlsh0uWO5TLfLRFmvu5Vo9szX3DStLPH5wwve6DwDdVO7tuOsafcysBhwE1ndRpobl3uqJ2nGceXMbcLqkUyWVgAuB7ekOkp4HfIyg2Hd38uLp+ukJWe11b5UzfrSU58mm5b/m/fBLyWipQE4wNu7xRv1OTwfUzdeNl35YHR0qTAt0cRxnfsQP5W8BbgTuAz5jZvdIep+k18TdPgCsBP5F0h2Sts9wunnTvM8dkpruy2PNfcVQgSePTnfLZ5FbPmGjb4cbCApdPHc77rqkzy5JBWANsK/dC5jZlcCVAFu3bp1zNKcD6laUPFrecTqBmd0A3NDUdnnq/S9069rNueUBCvlcJmvuraLgV5YK7Bw/PK3fyqFuTr2zs2HlED9+cpwtJ67OTAan+3TTcp/TXRd/vjh+fz5wk3VxMSiKQtYoCE/Ubrk7Tm8zo+WehVu+hbt9xXBhmlt+olqfluxmKTlmRYnHD7rl3u907fHRzGqSEnddHrgqcdcBO8xsO/AJ4BpJO4H9hAcAACQ9BKwGSpJ+BTjXzO5dlEyp9ytKhZYVmxzH6R3qLdfcs8lSV65NT2KzZqQ4LZf74XKN0WJ+KUWbwrpRT2QzCHTVN9SGu24CuGCG727ugjyNPbHDxVBruVbPbluK4ziLYybLPTO3fFPo/rrRInsOTd0ccGiiykgpO+W+fmWJR/b7Xvd+Z6C0WjpDnaSQPcrX3R2nZwlJbJaHW77VmvtIMU9kNsVLeLhcy1i5e0DdIDBYyp3Jfe4Q8j77urvj9C4tLfd8RvvcW+SMl8T6FSV2j02m7DhSrjOcoVv++NXDPLjniO9173MGS7k3/S2vGCowNuHK3XF6kSgyImN6+tmsLPfq9H3uAOtWlNidcs0fKdcYyXTNvYgEPz7Y0RxhzjJjsJQ7UyeCUU9k4zg9S92C1a4WSWwqWexzr7VW7mtGilOVe6XGaIZueUk8beNK7tp1MDMZnO6T3WbLDIiaTPfhYt7LvjpOj1KtR9Nc8gD5DNfcW1nka0aKDbd8PTIqtYihDLfCAWxaP8pdu55k/coStbrx00/ramJQJwMGSrmnC8cAjJTyHC7XsxPIcZwFc3iixooWFnBe2Sj3iWrE6uHitPag3IPlfjh2yTd7G5aap25Yyd/e9EOu2/EoZnDzH/0cKzJMrON0noFzy6cD6oYLOQ77mrvj9CRjE7WWCimrgLpWSWwA1o6WeCK23A+Xa4yWsleiZ56ylj/d9myueN2ZbDlxNZ/8xoNZi+R0mMFS7makn5eHinmOVNxyd5xe5NBEteXaddjnvnzW3NeNFvlJrNyPlLNdb0/I58SmY0Yp5HK84pnHcf3tj3n0fJ8xYMod0tp9uJj3rXCO06McmmhtBedzolrLZs29VUGYdaOT0fKHJmoMLwPlnua0Y1cyXq1x3+OHshbF6SADptynWu6jxbynoHWcHmVshkxv+ZyoRVkp91aWe4m9hyfX3LNMPdsKSZz91PV8/o7mul5OLzNYyh2mBLIMF/Mc8gx1jtOTHJporShDtPzSu5grLUq+AqwYylOuRkxU6xwpLz/LHeDFT9vAv93xGFHkrvl+YaCUe/Pf7Yhb7o7Ts8yUo72QE5Us3PL1+rT0sxAMimNWhIj5wxM1hovLb9rddMwoI8U8tz64P2tRnA6x/P7KuoiZTdsKd8ij5R2nJxkbr7VM41rI5xivLn2g7MGj1RnrtK9bMcRPDk1wqFxjuLD8LHeAnz19I9fe9kjWYjgdYqCUOzRthSvmOeL73B2nJzk43jpaPmSEW9rUqmbG3sMV1o2WWh5fOxos9yPl1g8ky4GfOX0DX7lv97T6805vMlDKvXUSG3fLO04vMjZebRktf8xoicefXFrlfuBolaFijtIMmefWjoTtcPuPVJbFVrhWrB4u8vynrOO62x7NWhSnAwyWcmfqovtIMc/Riit3x+lFxmbY537MilJjX/lS8ZOxCdavaG21A6yOlfv3nxjjxLUjSyjZ/Dh3y3F88hsPUcsgCZDTWQZKuTcz4m55x+lZxiZaJ4RprsK2FDwxNsG6WZT78auH+f4Th7j/iUNsXr9iCSWbH0/buJINK0ts/96PsxbFWSQDrdyHijnKtTp13/7hOD1HyFA33S2/opSnHtmSLrntHptg7cj0vPIJzzpxNd96YB/1yFg3OnO/5cCvPO8krvjyD9x673G6qtwlnSfpfkk7JV3W4viQpOvi47dK2pw69u64/X5Jv9gN+XJSCKpz17zjLJjFjPPFcGgGy10S61eWeGIJ65U/cbDM2hmC6QBWDRfZvH6UzRtWZF40Zi6edeIaNq4c4m+/8sOsRXEWQdeUu6Q88GHglcAW4CJJW5q6XQIcMLPTgCuA98ff3QJcCDwLOA/4u/h8HWek5GVfHWehLGacL5bZ8rSvX+J198cPjrN2Dov8zFPW8tQNy9cln+ZNP/tU/vnbj/Cu6+/klgf2eXKbHqSblvtZwE4ze8DMKsC1wLamPtuAq+P31wMvV3is3QZca2ZlM3sQ2Bmfr+OMlvLsOjDejVM7ziCwmHG+KGZK9woh5etSWu6PHjg64za4hG1nnsQFLzhliSRaHGtHS/zFrz6XuhmXffZOXvqBr3L1Nx/0vCA9RDdrD54EpPdU7AJeNFMfM6tJOgisj9tvafruSZ0QaqJaZ/+RyX2cL37aBi746Ld457lncOYp6xgu5pCEFGrMpOeg+VRNkjSl/3J3xTnZ0cm/k42rhjhpaaOxFzPO9y724k8erVIqTA+KXTVc4K+//ANOXjdCqZCb9Xc1C/toosioRUY9MiIzhCjmRSGfIxd/PTKjUjMmanUqtYhKLeK+x8f41o/2se2nTpoyt/QDP/f0YznnjI384CeH+adbH+E92+/lxLXDbF6/ghPWDHPc6mGOXTXEuhUlRop5ioUcxVyOfE7kc+l5FGDyc0J6Rp3rLz/pm56Gm883EzPN40s5Lzfrj7muLUKsRmGGB9i5yL6w8CKQdClwafzxsKT7Z+ufG1m9ToXiU/5hZPWUSBHl8sV3XD3Tt7pD/ehB8qNrlvaiy1AGl6PzclSe2Hn7HF2esuCTd5H5jufihk3PfN3H8w1feDQ+lstNjm0ply+89K+7JGwLXn9VvSNmbdN9LCukXP5xKTfXH1jCchlTnSCLe6kd3P1AND52YI5uLcdzN5X7Y0DaB3Vy3Naqzy5JBWANsK/N72JmVwJXzkcoSTtqY3u3zuc73UDSjtrB3ZnKsRxkcDmWrxxtsphxPoWFjOc0y2VsL5Z+uQ/oub/lWem1e+nmmvttwOmSTpVUIgTIbW/qsx24OH5/PnCTBd/FduDCOMr2VOB04NtdlNVxnIWxmHHuOE6X6JrlHq+tvQW4EcgDV5nZPZLeB+wws+3AJ4BrJO0E9hMmBuJ+nwHuBWrA75mZZ5txnGXGYsa54zjdo6tr7mZ2A3BDU9vlqfcTwAUzfPfPgT/vglgLdvt1mOUgx3KQAVyOZpaLHG2xmHHeYXrqd5uFfrkP8HvJDLl3zHEcx3H6i4FOP+s4juM4/cjAKPe5UmR2+FqnSPqqpHsl3SPp9+P2YyT9b0k/jP9dF7dL0t/Gst0p6fkdlicv6buSvhB/PjVOA7ozTgtaitu7kiY0PvdaSddL+r6k+yT99FL/HpLeFv9/3C3p05KGl+q3kHSVpN2S7k61zfv+JV0c9/+hpItbXWvQWMqx3U1mmjd6leZ5p1dpNXdlLVM7DIRyV3spMjtJDXiHmW0BzgZ+L77eZcBXzOx04CvxZ2K5To9flwIf6bA8vw/cl/r8fuCKOB3oAUJ6UOhSmtCYvwH+w8yeAfxULM+S/R6STgL+O7DVzJ5NCP66kKX7LT5FSKWcZl73L+kY4D2EJDFnAe9JHggGlQzGdjeZad7oVZrnnV6l1dy1/DGzvn8BPw3cmPr8buDdS3j9fwNeAdwPnBC3nQDcH7//GHBRqn+jXweufTJBcfw88AVC4qO9QKH5tyFEPP90/L4Q91MHZFgDPNh8rqX8PZjMknZMfG9fAH5xKX8LYDNw90LvH7gI+FiqfUq/QXxlPba7fG//BrwiazkWKPuUeSdreRZxHy3nrl54DYTlTusUmR1JZzsXsTv3ecCtwHFm9nh86AnguCWQ76+BPwKSjFfrgSfNLKmWk77WlDShQJImdLGcCuwBPhm76f5e0gqW8Pcws8eA/xt4BHiccG+3s/S/RZr53n9mf8fLmL78TZrmjV6ked7pVWaau5Y9g6LcM0HSSuCzwB+Y2Vj6mIXHwq5uVZD0amC3mbWbLbJbFIDnAx8xs+cBR5h0QQPd/z1i9/U2wmA9EVjBdDd5ZizF34PTG8w2b/QCy2je6QRzzl3LlUFR7m2ls+0kkoqEAfpPZvavcfNPJJ0QHz8B2N1l+V4CvEbSQ4RqXT9PWD9aq5AGtPlaDTk0S5rQBbAL2GVmiRVyPWHALOXv8QvAg2a2x8yqwL8Sfp+l/i3SzPf+l/zvuAfoq99khnmj15g270j6x2xFWjAzzV3LnkFR7u2kyOwYkkTIynWfmX0wdSidhvNiwppa0v6GOEr6bOBgyl27YMzs3WZ2spltJtzzTWb268BXCWlAW8nR8TShZvYE8Kikp8dNLydkH1zK3+MR4GxJo/H/TyLDkv4WTcz3/m8EzpW0LvZEnBu3DTJLOra7ySzzRk8xw7zz+ozFWhCzzF3Ln6wX/ZfqBbwK+AHwI+CPu3ytnyG4WO8E7ohfryKs2X4F+CHwZeCYuL8IEb8/Au4iRHR3WqZziANbgKcScvXvBP4FGIrbh+PPO+PjT+3g9c8EdsS/yeeBdUv9ewB/AnwfuBu4Bhhaqt8C+DRhrb9KsAYuWcj9A78Vy7QT+M2lHEPL9bWUY7vL99Fy3sharkXeU2Pe6dVXq7kra5naeXmGOsdxHMfpMwbFLe84juM4A4Mrd8dxHMfpM1y5O47jOE6f4crdcRzHcfoMV+6O4ziO02e4cnccx1mGSDrcgXN8V9KZ8fuCpMOSXp86fruk50t6n6RfmOe5H5K0IX7/x3Eluzsl3SHpRYuVfY5rf03S1m5eo9dx5d4jSLpC0h+kPt8o6e9Tn/8fSZfPt+SlpE9JOn+W46+OJ4jvxaUof2dhd9C2PO+V9M7U57+W9NIOnbvlZCnpLZJ+qxPXcJxlxjeAF8fvf4qQD+DFAHGO9KcB3zOzy83sywu5QFwC9dXA883suYRskI/O/i2n27hy7x0ag1RSDtgAPCt1/MXAl8zsLzt1wTgV5pXAL5vZTxEKWXytU+dv4/rrgbPN7OYuX+oq4K1dvobjLBpJZ0q6JbaQP5eU/JX0wpTV/AFJd8df+SaTyv3FwEcJSVkglA2+3czq6Yf82CL/E0nfkXSXpGfE7eslfSm20P+ekGwJQsXCvWZWBjCzvWb249S5/io+z7clnRa3b5T0WUm3xa+XxO0rJF0V9/2upG1x+4ikaxXqqX8OGOnST9w3uHLvHb5JKG8JQanfDRyKU5EOAc8EnivpQ9CwyP9W0jclPZAauJL0IUn3S/oycOws11xFKJywD8DMymZ2f+r8H5W0Q9IPFIpFICkfTy63xZNNw9KX9Iep9j9Jtf9xfI7/Ap6euv5rgf9I9XtI0l/EE9iO2J14o6QfSXpz3OccSTdL+mJ8jx+NH4aSc/x57IW4RdJx8X0dBR6SdFb7/x2Okwn/ALwrtpDvAt4Tt38S+B0zOxOop/qnLfcXAzcDZUmr4s/fnOE6e83s+cBHgMST9h7gv8zsWcDngE1x+5eAU+Ix/HeSXtZ0roNm9hzgQ4RqcRBqXFxhZi8kjPPEC/nHhHS1ZwE/B3wg9jD8LnDUzJ4Zy/GCWX8lx5V7rxA/CdckbSIMym8RykH+NLCVMNArTV87gZDS8tVAYtH/KkGBbgHewOTAb3XN/YQ83Q9L+rSkX08rSkJ98rOAXwI+KmmYkFb1YDxoXwi8SSHv97nA6XH/M4EXSHqppBcQ8k+fSUgj+sLU+V9CKMua5pF4AvtP4FOEvO9nE1LLJpxFsMS3ENyO/0fcvgK4JfZC3Ay8KfWdHcDPzvRbOE7WSFoDrDWzr8dNVwMvlbQWWGVm34rb/zn5jpk9DJQkHQ88A7ifkI//RYSx/40ZLpcUrbmdMM4BXgr8Y3zeLwIH4veHCcr2UkJ51OskvTF1rk+n/k0MlF8APiTpDsIcs1qhGt65wGVx+9cIaaA3NV37TkIqWGcWCnN3cZYRiYvtxcAHCXWrX0yoNd5qkH7ezCLg3sRKJQyST5tZHfixpJtmu6CZ/bak5xAG4zuBVwBvjA9/Jj7/DyU9QJg8ziV4EJJ1/DUEpX5u/Ppu3L4ybl8FfC62npGULvpxAmGySJMcvwtYaWaHCB6McjzJAXzbzB6Iz/dpwgPO9YSHny/EfW6P7yVhdyy/4/Qb3wQuAB43M5N0C+HB+SyCkdCKcvxvnTb0RDyffA34mqS7CIWQPpUcTneN/80Rltwm0ueRJOC1iYcw1T6XCE4Tbrn3FomL7TkEt/wthCfhmdxr5dT7BY8OM7vLzK4gKMPXpg81d42v81YzOzN+nWpmX4rb/yLVfpqZfWKOS48TntzTJPcUMfX+IiYnoVZyAVRtsphC86Q1sQb7+gAAAsVJREFUHF/PcZYlZnYQOCAp8TD9BvB1M3uS8ICbRKhf2PTVbwJ/wKQi/xbBa/dEfM52uRn4NQBJryQUf0LS0yWdnup3JvBw6vPrUv8mMnyJVJyL4oh+QpXDt8ZKHknPa3HtZwPPnYfcA4kr997imwQX+34zq8du87UEBT/T2lkzNwOvi9fGTyCsa7VE0kpJ56SamgftBZJykp5GqK52P2Fw/q5CMB6SzojXzG4Efit2vSHpJEnHxvL8Shwwswr45dT57wNOa/O+0pwVLwXkCBPKf7XxnTMID0yOs1wYlbQr9Xo7wSL+gKQ7CePxfXHfS4CPx+7sFQRvXsI3COPzWwAWygfnaX/OSPgTwjLAPYSlrkfi9pXA1Qq7ae4kLIe9N/W9dXH77wNvi9v+O7A1jr+5F3hz3P6nQBG4M77On8btHwFWSrovvufm5TqnCXfL9xZ3EaLk/7mpbaWZ7W3TdfU54OcJNYkfYWa3HARr+48kfYxg1R5h0iVP/P1vA6uBN5vZhEIU7WbgO/HT9x7gV8zsS5KeCXwrlvMw8Hoz+46k64DvEVzjt6XO/0Xgd5gMtmmX2wjBO6cR6rV/ro3vvISpE5LjZIqZzWR8nd2i7Z44yA6F7bA7Uue5jSbPnYVa6+nPb2x1zMx2EMq2Ymb7CEtrzexlltgd4ANm9q6m6+1l0qJPt48Txnyr9maPhDMLXvLVWRCSPkWo03x9l6/zX8CrY9djO/3PAd5pZq+exzWeB7zdzH5jYVI6TrZIeh3wboLB9jDwRjNrjldZciQ9BGyNlbmzhLjl7ix33kGIlm1LuS+QDcD/6uL5HaermNl1wHVZy9FMs4fAWTrccncAUEgMcWpT87vM7MYs5HEcx3EWjit3x3Ecx+kzPFrecRzHcfoMV+6O4ziO02e4cnccx3GcPsOVu+M4juP0Ga7cHcdxHKfP+P8Bp7D2T/vw5O8AAAAASUVORK5CYII=\n"
          },
          "metadata": {
            "needs_background": "light"
          }
        }
      ]
    },
    {
      "cell_type": "markdown",
      "source": [
        "### Counts"
      ],
      "metadata": {
        "id": "QNpoFmbvYqdd"
      }
    },
    {
      "cell_type": "markdown",
      "source": [
        "Features describing the presence or absence of something often come in sets, the set of risk factors for a disease, say. You can aggregate such features by creating a **count**. These features will be *binary* (`1` for Present, `0` for Absent) or *boolean* (`True` or `False`). In Python, booleans can be added up just as if they were integers.\n",
        "\n",
        "In *Traffic Accidents* are several features indicating whether some roadway object was near the accident. This will create a count of the total number of roadway features nearby using the `sum` method:"
      ],
      "metadata": {
        "id": "m3tgNutfY0t2"
      }
    },
    {
      "cell_type": "code",
      "source": [
        "roadway_features = [\"Amenity\", \"Bump\", \"Crossing\", \"Give_Way\",\n",
        "    \"Junction\", \"No_Exit\", \"Railway\", \"Roundabout\", \"Station\", \"Stop\",\n",
        "    \"Traffic_Calming\", \"Traffic_Signal\"]\n",
        "accidents[\"RoadwayFeatures\"] = accidents[roadway_features].sum(axis=1)\n",
        "\n",
        "accidents[roadway_features + [\"RoadwayFeatures\"]].head(20)"
      ],
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/",
          "height": 677
        },
        "id": "7_wcuQNRY5WX",
        "outputId": "ef7d5108-6b55-4883-ab73-c85250a535d3"
      },
      "execution_count": 54,
      "outputs": [
        {
          "output_type": "execute_result",
          "data": {
            "text/plain": [
              "    Amenity   Bump  Crossing  Give_Way  Junction  No_Exit  Railway  \\\n",
              "0     False  False     False     False     False    False    False   \n",
              "1     False  False     False     False     False    False    False   \n",
              "2     False  False     False     False      True    False    False   \n",
              "3     False  False     False     False     False    False    False   \n",
              "4     False  False     False     False     False    False    False   \n",
              "5     False  False     False     False     False    False    False   \n",
              "6     False  False     False     False     False    False    False   \n",
              "7     False  False     False     False      True    False    False   \n",
              "8     False  False     False     False     False    False    False   \n",
              "9     False  False     False     False     False    False    False   \n",
              "10    False  False     False     False     False    False    False   \n",
              "11    False  False      True     False     False    False    False   \n",
              "12    False  False     False     False     False    False    False   \n",
              "13    False  False     False     False     False    False    False   \n",
              "14    False  False     False     False     False    False    False   \n",
              "15    False  False     False     False     False    False    False   \n",
              "16    False  False     False     False     False    False    False   \n",
              "17    False  False     False     False     False    False    False   \n",
              "18    False  False     False     False     False    False    False   \n",
              "19    False  False     False     False     False    False    False   \n",
              "\n",
              "    Roundabout  Station   Stop  Traffic_Calming  Traffic_Signal  \\\n",
              "0        False    False  False            False           False   \n",
              "1        False    False  False            False           False   \n",
              "2        False    False  False            False           False   \n",
              "3        False    False  False            False           False   \n",
              "4        False    False  False            False           False   \n",
              "5        False    False  False            False            True   \n",
              "6        False    False  False            False           False   \n",
              "7        False    False  False            False           False   \n",
              "8        False    False  False            False           False   \n",
              "9        False    False  False            False           False   \n",
              "10       False    False  False            False           False   \n",
              "11       False    False  False            False            True   \n",
              "12       False    False  False            False           False   \n",
              "13       False    False  False            False           False   \n",
              "14       False    False  False            False           False   \n",
              "15       False    False  False            False           False   \n",
              "16       False    False  False            False           False   \n",
              "17       False    False  False            False           False   \n",
              "18       False    False  False            False           False   \n",
              "19       False    False  False            False           False   \n",
              "\n",
              "    RoadwayFeatures  \n",
              "0                 0  \n",
              "1                 0  \n",
              "2                 1  \n",
              "3                 0  \n",
              "4                 0  \n",
              "5                 1  \n",
              "6                 0  \n",
              "7                 1  \n",
              "8                 0  \n",
              "9                 0  \n",
              "10                0  \n",
              "11                2  \n",
              "12                0  \n",
              "13                0  \n",
              "14                0  \n",
              "15                0  \n",
              "16                0  \n",
              "17                0  \n",
              "18                0  \n",
              "19                0  "
            ],
            "text/html": [
              "\n",
              "  <div id=\"df-c59df483-3e49-41ee-a82f-79c21682bdd9\">\n",
              "    <div class=\"colab-df-container\">\n",
              "      <div>\n",
              "<style scoped>\n",
              "    .dataframe tbody tr th:only-of-type {\n",
              "        vertical-align: middle;\n",
              "    }\n",
              "\n",
              "    .dataframe tbody tr th {\n",
              "        vertical-align: top;\n",
              "    }\n",
              "\n",
              "    .dataframe thead th {\n",
              "        text-align: right;\n",
              "    }\n",
              "</style>\n",
              "<table border=\"1\" class=\"dataframe\">\n",
              "  <thead>\n",
              "    <tr style=\"text-align: right;\">\n",
              "      <th></th>\n",
              "      <th>Amenity</th>\n",
              "      <th>Bump</th>\n",
              "      <th>Crossing</th>\n",
              "      <th>Give_Way</th>\n",
              "      <th>Junction</th>\n",
              "      <th>No_Exit</th>\n",
              "      <th>Railway</th>\n",
              "      <th>Roundabout</th>\n",
              "      <th>Station</th>\n",
              "      <th>Stop</th>\n",
              "      <th>Traffic_Calming</th>\n",
              "      <th>Traffic_Signal</th>\n",
              "      <th>RoadwayFeatures</th>\n",
              "    </tr>\n",
              "  </thead>\n",
              "  <tbody>\n",
              "    <tr>\n",
              "      <th>0</th>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>0</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>1</th>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>0</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>2</th>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>True</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>1</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>3</th>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>0</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>4</th>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>0</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>5</th>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>True</td>\n",
              "      <td>1</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>6</th>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>0</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>7</th>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>True</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>1</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>8</th>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>0</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>9</th>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>0</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>10</th>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>0</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>11</th>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>True</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>True</td>\n",
              "      <td>2</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>12</th>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>0</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>13</th>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>0</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>14</th>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>0</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>15</th>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>0</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>16</th>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>0</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>17</th>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>0</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>18</th>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>0</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>19</th>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>False</td>\n",
              "      <td>0</td>\n",
              "    </tr>\n",
              "  </tbody>\n",
              "</table>\n",
              "</div>\n",
              "      <button class=\"colab-df-convert\" onclick=\"convertToInteractive('df-c59df483-3e49-41ee-a82f-79c21682bdd9')\"\n",
              "              title=\"Convert this dataframe to an interactive table.\"\n",
              "              style=\"display:none;\">\n",
              "        \n",
              "  <svg xmlns=\"http://www.w3.org/2000/svg\" height=\"24px\"viewBox=\"0 0 24 24\"\n",
              "       width=\"24px\">\n",
              "    <path d=\"M0 0h24v24H0V0z\" fill=\"none\"/>\n",
              "    <path d=\"M18.56 5.44l.94 2.06.94-2.06 2.06-.94-2.06-.94-.94-2.06-.94 2.06-2.06.94zm-11 1L8.5 8.5l.94-2.06 2.06-.94-2.06-.94L8.5 2.5l-.94 2.06-2.06.94zm10 10l.94 2.06.94-2.06 2.06-.94-2.06-.94-.94-2.06-.94 2.06-2.06.94z\"/><path d=\"M17.41 7.96l-1.37-1.37c-.4-.4-.92-.59-1.43-.59-.52 0-1.04.2-1.43.59L10.3 9.45l-7.72 7.72c-.78.78-.78 2.05 0 2.83L4 21.41c.39.39.9.59 1.41.59.51 0 1.02-.2 1.41-.59l7.78-7.78 2.81-2.81c.8-.78.8-2.07 0-2.86zM5.41 20L4 18.59l7.72-7.72 1.47 1.35L5.41 20z\"/>\n",
              "  </svg>\n",
              "      </button>\n",
              "      \n",
              "  <style>\n",
              "    .colab-df-container {\n",
              "      display:flex;\n",
              "      flex-wrap:wrap;\n",
              "      gap: 12px;\n",
              "    }\n",
              "\n",
              "    .colab-df-convert {\n",
              "      background-color: #E8F0FE;\n",
              "      border: none;\n",
              "      border-radius: 50%;\n",
              "      cursor: pointer;\n",
              "      display: none;\n",
              "      fill: #1967D2;\n",
              "      height: 32px;\n",
              "      padding: 0 0 0 0;\n",
              "      width: 32px;\n",
              "    }\n",
              "\n",
              "    .colab-df-convert:hover {\n",
              "      background-color: #E2EBFA;\n",
              "      box-shadow: 0px 1px 2px rgba(60, 64, 67, 0.3), 0px 1px 3px 1px rgba(60, 64, 67, 0.15);\n",
              "      fill: #174EA6;\n",
              "    }\n",
              "\n",
              "    [theme=dark] .colab-df-convert {\n",
              "      background-color: #3B4455;\n",
              "      fill: #D2E3FC;\n",
              "    }\n",
              "\n",
              "    [theme=dark] .colab-df-convert:hover {\n",
              "      background-color: #434B5C;\n",
              "      box-shadow: 0px 1px 3px 1px rgba(0, 0, 0, 0.15);\n",
              "      filter: drop-shadow(0px 1px 2px rgba(0, 0, 0, 0.3));\n",
              "      fill: #FFFFFF;\n",
              "    }\n",
              "  </style>\n",
              "\n",
              "      <script>\n",
              "        const buttonEl =\n",
              "          document.querySelector('#df-c59df483-3e49-41ee-a82f-79c21682bdd9 button.colab-df-convert');\n",
              "        buttonEl.style.display =\n",
              "          google.colab.kernel.accessAllowed ? 'block' : 'none';\n",
              "\n",
              "        async function convertToInteractive(key) {\n",
              "          const element = document.querySelector('#df-c59df483-3e49-41ee-a82f-79c21682bdd9');\n",
              "          const dataTable =\n",
              "            await google.colab.kernel.invokeFunction('convertToInteractive',\n",
              "                                                     [key], {});\n",
              "          if (!dataTable) return;\n",
              "\n",
              "          const docLinkHtml = 'Like what you see? Visit the ' +\n",
              "            '<a target=\"_blank\" href=https://colab.research.google.com/notebooks/data_table.ipynb>data table notebook</a>'\n",
              "            + ' to learn more about interactive tables.';\n",
              "          element.innerHTML = '';\n",
              "          dataTable['output_type'] = 'display_data';\n",
              "          await google.colab.output.renderOutput(dataTable, element);\n",
              "          const docLink = document.createElement('div');\n",
              "          docLink.innerHTML = docLinkHtml;\n",
              "          element.appendChild(docLink);\n",
              "        }\n",
              "      </script>\n",
              "    </div>\n",
              "  </div>\n",
              "  "
            ]
          },
          "metadata": {},
          "execution_count": 54
        }
      ]
    },
    {
      "cell_type": "markdown",
      "source": [
        "### Group Transforms"
      ],
      "metadata": {
        "id": "zz7LnKgUZgKG"
      }
    },
    {
      "cell_type": "markdown",
      "source": [
        "Finally we have **Group transforms**, which aggregate information across multiple rows grouped by some category. With a group transform you can create features like: \"the average income of a person's state of residence,\" or \"the proportion of movies released on a weekday, by genre.\" If you had discovered a category interaction, a group transform over that categry could be something good to investigate.\n",
        "\n",
        "Using an aggregation function, a group transform combines two features: a categorical feature that provides the grouping and another feature whose values you wish to aggregate. For an \"average income by state\", you would choose `State` for the grouping feature, `mean` for the aggregation function, and `Income` for the aggregated feature. To compute this in Pandas, we use the `groupby` and `transform` methods:"
      ],
      "metadata": {
        "id": "Sxt28fbgZkCw"
      }
    },
    {
      "cell_type": "code",
      "source": [
        "customer[\"AverageIncome\"] = (\n",
        "    customer.groupby(\"State\")  # for each state\n",
        "    [\"Income\"]                 # select the income\n",
        "    .transform(\"mean\")         # and compute its mean\n",
        ")\n",
        "\n",
        "customer[[\"State\", \"Income\", \"AverageIncome\"]].head(10)"
      ],
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/",
          "height": 363
        },
        "id": "Fe7UPXGxZrgu",
        "outputId": "b635e0b1-6834-4bec-970e-e5de6d0789ce"
      },
      "execution_count": 49,
      "outputs": [
        {
          "output_type": "execute_result",
          "data": {
            "text/plain": [
              "        State  Income  AverageIncome\n",
              "0  Washington   56274   38122.733083\n",
              "1     Arizona       0   37405.402231\n",
              "2      Nevada   48767   38369.605442\n",
              "3  California       0   37558.946667\n",
              "4  Washington   43836   38122.733083\n",
              "5      Oregon   62902   37557.283353\n",
              "6      Oregon   55350   37557.283353\n",
              "7     Arizona       0   37405.402231\n",
              "8      Oregon   14072   37557.283353\n",
              "9      Oregon   28812   37557.283353"
            ],
            "text/html": [
              "\n",
              "  <div id=\"df-6db4c4ad-2af9-46da-81d8-c60b2b623b3f\">\n",
              "    <div class=\"colab-df-container\">\n",
              "      <div>\n",
              "<style scoped>\n",
              "    .dataframe tbody tr th:only-of-type {\n",
              "        vertical-align: middle;\n",
              "    }\n",
              "\n",
              "    .dataframe tbody tr th {\n",
              "        vertical-align: top;\n",
              "    }\n",
              "\n",
              "    .dataframe thead th {\n",
              "        text-align: right;\n",
              "    }\n",
              "</style>\n",
              "<table border=\"1\" class=\"dataframe\">\n",
              "  <thead>\n",
              "    <tr style=\"text-align: right;\">\n",
              "      <th></th>\n",
              "      <th>State</th>\n",
              "      <th>Income</th>\n",
              "      <th>AverageIncome</th>\n",
              "    </tr>\n",
              "  </thead>\n",
              "  <tbody>\n",
              "    <tr>\n",
              "      <th>0</th>\n",
              "      <td>Washington</td>\n",
              "      <td>56274</td>\n",
              "      <td>38122.733083</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>1</th>\n",
              "      <td>Arizona</td>\n",
              "      <td>0</td>\n",
              "      <td>37405.402231</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>2</th>\n",
              "      <td>Nevada</td>\n",
              "      <td>48767</td>\n",
              "      <td>38369.605442</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>3</th>\n",
              "      <td>California</td>\n",
              "      <td>0</td>\n",
              "      <td>37558.946667</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>4</th>\n",
              "      <td>Washington</td>\n",
              "      <td>43836</td>\n",
              "      <td>38122.733083</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>5</th>\n",
              "      <td>Oregon</td>\n",
              "      <td>62902</td>\n",
              "      <td>37557.283353</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>6</th>\n",
              "      <td>Oregon</td>\n",
              "      <td>55350</td>\n",
              "      <td>37557.283353</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>7</th>\n",
              "      <td>Arizona</td>\n",
              "      <td>0</td>\n",
              "      <td>37405.402231</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>8</th>\n",
              "      <td>Oregon</td>\n",
              "      <td>14072</td>\n",
              "      <td>37557.283353</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>9</th>\n",
              "      <td>Oregon</td>\n",
              "      <td>28812</td>\n",
              "      <td>37557.283353</td>\n",
              "    </tr>\n",
              "  </tbody>\n",
              "</table>\n",
              "</div>\n",
              "      <button class=\"colab-df-convert\" onclick=\"convertToInteractive('df-6db4c4ad-2af9-46da-81d8-c60b2b623b3f')\"\n",
              "              title=\"Convert this dataframe to an interactive table.\"\n",
              "              style=\"display:none;\">\n",
              "        \n",
              "  <svg xmlns=\"http://www.w3.org/2000/svg\" height=\"24px\"viewBox=\"0 0 24 24\"\n",
              "       width=\"24px\">\n",
              "    <path d=\"M0 0h24v24H0V0z\" fill=\"none\"/>\n",
              "    <path d=\"M18.56 5.44l.94 2.06.94-2.06 2.06-.94-2.06-.94-.94-2.06-.94 2.06-2.06.94zm-11 1L8.5 8.5l.94-2.06 2.06-.94-2.06-.94L8.5 2.5l-.94 2.06-2.06.94zm10 10l.94 2.06.94-2.06 2.06-.94-2.06-.94-.94-2.06-.94 2.06-2.06.94z\"/><path d=\"M17.41 7.96l-1.37-1.37c-.4-.4-.92-.59-1.43-.59-.52 0-1.04.2-1.43.59L10.3 9.45l-7.72 7.72c-.78.78-.78 2.05 0 2.83L4 21.41c.39.39.9.59 1.41.59.51 0 1.02-.2 1.41-.59l7.78-7.78 2.81-2.81c.8-.78.8-2.07 0-2.86zM5.41 20L4 18.59l7.72-7.72 1.47 1.35L5.41 20z\"/>\n",
              "  </svg>\n",
              "      </button>\n",
              "      \n",
              "  <style>\n",
              "    .colab-df-container {\n",
              "      display:flex;\n",
              "      flex-wrap:wrap;\n",
              "      gap: 12px;\n",
              "    }\n",
              "\n",
              "    .colab-df-convert {\n",
              "      background-color: #E8F0FE;\n",
              "      border: none;\n",
              "      border-radius: 50%;\n",
              "      cursor: pointer;\n",
              "      display: none;\n",
              "      fill: #1967D2;\n",
              "      height: 32px;\n",
              "      padding: 0 0 0 0;\n",
              "      width: 32px;\n",
              "    }\n",
              "\n",
              "    .colab-df-convert:hover {\n",
              "      background-color: #E2EBFA;\n",
              "      box-shadow: 0px 1px 2px rgba(60, 64, 67, 0.3), 0px 1px 3px 1px rgba(60, 64, 67, 0.15);\n",
              "      fill: #174EA6;\n",
              "    }\n",
              "\n",
              "    [theme=dark] .colab-df-convert {\n",
              "      background-color: #3B4455;\n",
              "      fill: #D2E3FC;\n",
              "    }\n",
              "\n",
              "    [theme=dark] .colab-df-convert:hover {\n",
              "      background-color: #434B5C;\n",
              "      box-shadow: 0px 1px 3px 1px rgba(0, 0, 0, 0.15);\n",
              "      filter: drop-shadow(0px 1px 2px rgba(0, 0, 0, 0.3));\n",
              "      fill: #FFFFFF;\n",
              "    }\n",
              "  </style>\n",
              "\n",
              "      <script>\n",
              "        const buttonEl =\n",
              "          document.querySelector('#df-6db4c4ad-2af9-46da-81d8-c60b2b623b3f button.colab-df-convert');\n",
              "        buttonEl.style.display =\n",
              "          google.colab.kernel.accessAllowed ? 'block' : 'none';\n",
              "\n",
              "        async function convertToInteractive(key) {\n",
              "          const element = document.querySelector('#df-6db4c4ad-2af9-46da-81d8-c60b2b623b3f');\n",
              "          const dataTable =\n",
              "            await google.colab.kernel.invokeFunction('convertToInteractive',\n",
              "                                                     [key], {});\n",
              "          if (!dataTable) return;\n",
              "\n",
              "          const docLinkHtml = 'Like what you see? Visit the ' +\n",
              "            '<a target=\"_blank\" href=https://colab.research.google.com/notebooks/data_table.ipynb>data table notebook</a>'\n",
              "            + ' to learn more about interactive tables.';\n",
              "          element.innerHTML = '';\n",
              "          dataTable['output_type'] = 'display_data';\n",
              "          await google.colab.output.renderOutput(dataTable, element);\n",
              "          const docLink = document.createElement('div');\n",
              "          docLink.innerHTML = docLinkHtml;\n",
              "          element.appendChild(docLink);\n",
              "        }\n",
              "      </script>\n",
              "    </div>\n",
              "  </div>\n",
              "  "
            ]
          },
          "metadata": {},
          "execution_count": 49
        }
      ]
    },
    {
      "cell_type": "markdown",
      "source": [
        "The `mean` function is a built-in dataframe method, which means we can pass it as a string to `transform`. Other handy methods include `max`, `min`, `median`, `var`, `std`, and `count`. Here's how you could calculate the frequency with which each state occurs in the dataset:\n"
      ],
      "metadata": {
        "id": "Y9ccRekZZ5jX"
      }
    },
    {
      "cell_type": "code",
      "source": [
        "customer[\"StateFreq\"] = (\n",
        "    customer.groupby(\"State\")\n",
        "    [\"State\"]\n",
        "    .transform(\"count\")\n",
        "    / customer.State.count()\n",
        ")\n",
        "\n",
        "customer[[\"State\", \"StateFreq\"]].head(10)"
      ],
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/",
          "height": 363
        },
        "id": "ytgp7h_QZwQd",
        "outputId": "3197eb08-f8e0-4ffd-dea3-5b366f706782"
      },
      "execution_count": 50,
      "outputs": [
        {
          "output_type": "execute_result",
          "data": {
            "text/plain": [
              "        State  StateFreq\n",
              "0  Washington   0.087366\n",
              "1     Arizona   0.186446\n",
              "2      Nevada   0.096562\n",
              "3  California   0.344865\n",
              "4  Washington   0.087366\n",
              "5      Oregon   0.284760\n",
              "6      Oregon   0.284760\n",
              "7     Arizona   0.186446\n",
              "8      Oregon   0.284760\n",
              "9      Oregon   0.284760"
            ],
            "text/html": [
              "\n",
              "  <div id=\"df-5656fbe9-115c-4ec2-8a75-928f77b99659\">\n",
              "    <div class=\"colab-df-container\">\n",
              "      <div>\n",
              "<style scoped>\n",
              "    .dataframe tbody tr th:only-of-type {\n",
              "        vertical-align: middle;\n",
              "    }\n",
              "\n",
              "    .dataframe tbody tr th {\n",
              "        vertical-align: top;\n",
              "    }\n",
              "\n",
              "    .dataframe thead th {\n",
              "        text-align: right;\n",
              "    }\n",
              "</style>\n",
              "<table border=\"1\" class=\"dataframe\">\n",
              "  <thead>\n",
              "    <tr style=\"text-align: right;\">\n",
              "      <th></th>\n",
              "      <th>State</th>\n",
              "      <th>StateFreq</th>\n",
              "    </tr>\n",
              "  </thead>\n",
              "  <tbody>\n",
              "    <tr>\n",
              "      <th>0</th>\n",
              "      <td>Washington</td>\n",
              "      <td>0.087366</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>1</th>\n",
              "      <td>Arizona</td>\n",
              "      <td>0.186446</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>2</th>\n",
              "      <td>Nevada</td>\n",
              "      <td>0.096562</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>3</th>\n",
              "      <td>California</td>\n",
              "      <td>0.344865</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>4</th>\n",
              "      <td>Washington</td>\n",
              "      <td>0.087366</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>5</th>\n",
              "      <td>Oregon</td>\n",
              "      <td>0.284760</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>6</th>\n",
              "      <td>Oregon</td>\n",
              "      <td>0.284760</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>7</th>\n",
              "      <td>Arizona</td>\n",
              "      <td>0.186446</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>8</th>\n",
              "      <td>Oregon</td>\n",
              "      <td>0.284760</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>9</th>\n",
              "      <td>Oregon</td>\n",
              "      <td>0.284760</td>\n",
              "    </tr>\n",
              "  </tbody>\n",
              "</table>\n",
              "</div>\n",
              "      <button class=\"colab-df-convert\" onclick=\"convertToInteractive('df-5656fbe9-115c-4ec2-8a75-928f77b99659')\"\n",
              "              title=\"Convert this dataframe to an interactive table.\"\n",
              "              style=\"display:none;\">\n",
              "        \n",
              "  <svg xmlns=\"http://www.w3.org/2000/svg\" height=\"24px\"viewBox=\"0 0 24 24\"\n",
              "       width=\"24px\">\n",
              "    <path d=\"M0 0h24v24H0V0z\" fill=\"none\"/>\n",
              "    <path d=\"M18.56 5.44l.94 2.06.94-2.06 2.06-.94-2.06-.94-.94-2.06-.94 2.06-2.06.94zm-11 1L8.5 8.5l.94-2.06 2.06-.94-2.06-.94L8.5 2.5l-.94 2.06-2.06.94zm10 10l.94 2.06.94-2.06 2.06-.94-2.06-.94-.94-2.06-.94 2.06-2.06.94z\"/><path d=\"M17.41 7.96l-1.37-1.37c-.4-.4-.92-.59-1.43-.59-.52 0-1.04.2-1.43.59L10.3 9.45l-7.72 7.72c-.78.78-.78 2.05 0 2.83L4 21.41c.39.39.9.59 1.41.59.51 0 1.02-.2 1.41-.59l7.78-7.78 2.81-2.81c.8-.78.8-2.07 0-2.86zM5.41 20L4 18.59l7.72-7.72 1.47 1.35L5.41 20z\"/>\n",
              "  </svg>\n",
              "      </button>\n",
              "      \n",
              "  <style>\n",
              "    .colab-df-container {\n",
              "      display:flex;\n",
              "      flex-wrap:wrap;\n",
              "      gap: 12px;\n",
              "    }\n",
              "\n",
              "    .colab-df-convert {\n",
              "      background-color: #E8F0FE;\n",
              "      border: none;\n",
              "      border-radius: 50%;\n",
              "      cursor: pointer;\n",
              "      display: none;\n",
              "      fill: #1967D2;\n",
              "      height: 32px;\n",
              "      padding: 0 0 0 0;\n",
              "      width: 32px;\n",
              "    }\n",
              "\n",
              "    .colab-df-convert:hover {\n",
              "      background-color: #E2EBFA;\n",
              "      box-shadow: 0px 1px 2px rgba(60, 64, 67, 0.3), 0px 1px 3px 1px rgba(60, 64, 67, 0.15);\n",
              "      fill: #174EA6;\n",
              "    }\n",
              "\n",
              "    [theme=dark] .colab-df-convert {\n",
              "      background-color: #3B4455;\n",
              "      fill: #D2E3FC;\n",
              "    }\n",
              "\n",
              "    [theme=dark] .colab-df-convert:hover {\n",
              "      background-color: #434B5C;\n",
              "      box-shadow: 0px 1px 3px 1px rgba(0, 0, 0, 0.15);\n",
              "      filter: drop-shadow(0px 1px 2px rgba(0, 0, 0, 0.3));\n",
              "      fill: #FFFFFF;\n",
              "    }\n",
              "  </style>\n",
              "\n",
              "      <script>\n",
              "        const buttonEl =\n",
              "          document.querySelector('#df-5656fbe9-115c-4ec2-8a75-928f77b99659 button.colab-df-convert');\n",
              "        buttonEl.style.display =\n",
              "          google.colab.kernel.accessAllowed ? 'block' : 'none';\n",
              "\n",
              "        async function convertToInteractive(key) {\n",
              "          const element = document.querySelector('#df-5656fbe9-115c-4ec2-8a75-928f77b99659');\n",
              "          const dataTable =\n",
              "            await google.colab.kernel.invokeFunction('convertToInteractive',\n",
              "                                                     [key], {});\n",
              "          if (!dataTable) return;\n",
              "\n",
              "          const docLinkHtml = 'Like what you see? Visit the ' +\n",
              "            '<a target=\"_blank\" href=https://colab.research.google.com/notebooks/data_table.ipynb>data table notebook</a>'\n",
              "            + ' to learn more about interactive tables.';\n",
              "          element.innerHTML = '';\n",
              "          dataTable['output_type'] = 'display_data';\n",
              "          await google.colab.output.renderOutput(dataTable, element);\n",
              "          const docLink = document.createElement('div');\n",
              "          docLink.innerHTML = docLinkHtml;\n",
              "          element.appendChild(docLink);\n",
              "        }\n",
              "      </script>\n",
              "    </div>\n",
              "  </div>\n",
              "  "
            ]
          },
          "metadata": {},
          "execution_count": 50
        }
      ]
    },
    {
      "cell_type": "markdown",
      "source": [
        "You could use a transform like this to create a \"frequency encoding\" for a categorical feature.\n",
        "\n",
        "If you're using training and validation splits, to preserve their independence, it's best to create a grouped feature using only the training set and then join it to the validation set. We can use the validation set's `merge` method after creating a unique set of values with `drop_duplicates` on the training set:"
      ],
      "metadata": {
        "id": "8fcZVOZtZ71O"
      }
    },
    {
      "cell_type": "code",
      "source": [
        "# Create splits\n",
        "df_train = customer.sample(frac=0.5)\n",
        "df_valid = customer.drop(df_train.index)\n",
        "\n",
        "# Create the average claim amount by coverage type, on the training set\n",
        "df_train[\"AverageClaim\"] = df_train.groupby(\"Coverage\")[\"Total Claim Amount\"].transform(\"mean\")\n",
        "\n",
        "# Merge the values into the validation set\n",
        "df_valid = df_valid.merge(\n",
        "    df_train[[\"Coverage\", \"AverageClaim\"]].drop_duplicates(),\n",
        "    on=\"Coverage\",\n",
        "    how=\"left\",\n",
        ")\n",
        "\n",
        "df_valid[[\"Coverage\", \"AverageClaim\"]].head(10)"
      ],
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/",
          "height": 363
        },
        "id": "EY5vvGSaZ9aQ",
        "outputId": "5981d4ad-b73c-447a-c139-53656709a906"
      },
      "execution_count": 53,
      "outputs": [
        {
          "output_type": "execute_result",
          "data": {
            "text/plain": [
              "   Coverage  AverageClaim\n",
              "0     Basic    381.039827\n",
              "1   Premium    653.350814\n",
              "2     Basic    381.039827\n",
              "3     Basic    381.039827\n",
              "4     Basic    381.039827\n",
              "5     Basic    381.039827\n",
              "6   Premium    653.350814\n",
              "7     Basic    381.039827\n",
              "8  Extended    489.910983\n",
              "9     Basic    381.039827"
            ],
            "text/html": [
              "\n",
              "  <div id=\"df-60821c4d-dd7e-4949-a438-b9c3c4756f4e\">\n",
              "    <div class=\"colab-df-container\">\n",
              "      <div>\n",
              "<style scoped>\n",
              "    .dataframe tbody tr th:only-of-type {\n",
              "        vertical-align: middle;\n",
              "    }\n",
              "\n",
              "    .dataframe tbody tr th {\n",
              "        vertical-align: top;\n",
              "    }\n",
              "\n",
              "    .dataframe thead th {\n",
              "        text-align: right;\n",
              "    }\n",
              "</style>\n",
              "<table border=\"1\" class=\"dataframe\">\n",
              "  <thead>\n",
              "    <tr style=\"text-align: right;\">\n",
              "      <th></th>\n",
              "      <th>Coverage</th>\n",
              "      <th>AverageClaim</th>\n",
              "    </tr>\n",
              "  </thead>\n",
              "  <tbody>\n",
              "    <tr>\n",
              "      <th>0</th>\n",
              "      <td>Basic</td>\n",
              "      <td>381.039827</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>1</th>\n",
              "      <td>Premium</td>\n",
              "      <td>653.350814</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>2</th>\n",
              "      <td>Basic</td>\n",
              "      <td>381.039827</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>3</th>\n",
              "      <td>Basic</td>\n",
              "      <td>381.039827</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>4</th>\n",
              "      <td>Basic</td>\n",
              "      <td>381.039827</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>5</th>\n",
              "      <td>Basic</td>\n",
              "      <td>381.039827</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>6</th>\n",
              "      <td>Premium</td>\n",
              "      <td>653.350814</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>7</th>\n",
              "      <td>Basic</td>\n",
              "      <td>381.039827</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>8</th>\n",
              "      <td>Extended</td>\n",
              "      <td>489.910983</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>9</th>\n",
              "      <td>Basic</td>\n",
              "      <td>381.039827</td>\n",
              "    </tr>\n",
              "  </tbody>\n",
              "</table>\n",
              "</div>\n",
              "      <button class=\"colab-df-convert\" onclick=\"convertToInteractive('df-60821c4d-dd7e-4949-a438-b9c3c4756f4e')\"\n",
              "              title=\"Convert this dataframe to an interactive table.\"\n",
              "              style=\"display:none;\">\n",
              "        \n",
              "  <svg xmlns=\"http://www.w3.org/2000/svg\" height=\"24px\"viewBox=\"0 0 24 24\"\n",
              "       width=\"24px\">\n",
              "    <path d=\"M0 0h24v24H0V0z\" fill=\"none\"/>\n",
              "    <path d=\"M18.56 5.44l.94 2.06.94-2.06 2.06-.94-2.06-.94-.94-2.06-.94 2.06-2.06.94zm-11 1L8.5 8.5l.94-2.06 2.06-.94-2.06-.94L8.5 2.5l-.94 2.06-2.06.94zm10 10l.94 2.06.94-2.06 2.06-.94-2.06-.94-.94-2.06-.94 2.06-2.06.94z\"/><path d=\"M17.41 7.96l-1.37-1.37c-.4-.4-.92-.59-1.43-.59-.52 0-1.04.2-1.43.59L10.3 9.45l-7.72 7.72c-.78.78-.78 2.05 0 2.83L4 21.41c.39.39.9.59 1.41.59.51 0 1.02-.2 1.41-.59l7.78-7.78 2.81-2.81c.8-.78.8-2.07 0-2.86zM5.41 20L4 18.59l7.72-7.72 1.47 1.35L5.41 20z\"/>\n",
              "  </svg>\n",
              "      </button>\n",
              "      \n",
              "  <style>\n",
              "    .colab-df-container {\n",
              "      display:flex;\n",
              "      flex-wrap:wrap;\n",
              "      gap: 12px;\n",
              "    }\n",
              "\n",
              "    .colab-df-convert {\n",
              "      background-color: #E8F0FE;\n",
              "      border: none;\n",
              "      border-radius: 50%;\n",
              "      cursor: pointer;\n",
              "      display: none;\n",
              "      fill: #1967D2;\n",
              "      height: 32px;\n",
              "      padding: 0 0 0 0;\n",
              "      width: 32px;\n",
              "    }\n",
              "\n",
              "    .colab-df-convert:hover {\n",
              "      background-color: #E2EBFA;\n",
              "      box-shadow: 0px 1px 2px rgba(60, 64, 67, 0.3), 0px 1px 3px 1px rgba(60, 64, 67, 0.15);\n",
              "      fill: #174EA6;\n",
              "    }\n",
              "\n",
              "    [theme=dark] .colab-df-convert {\n",
              "      background-color: #3B4455;\n",
              "      fill: #D2E3FC;\n",
              "    }\n",
              "\n",
              "    [theme=dark] .colab-df-convert:hover {\n",
              "      background-color: #434B5C;\n",
              "      box-shadow: 0px 1px 3px 1px rgba(0, 0, 0, 0.15);\n",
              "      filter: drop-shadow(0px 1px 2px rgba(0, 0, 0, 0.3));\n",
              "      fill: #FFFFFF;\n",
              "    }\n",
              "  </style>\n",
              "\n",
              "      <script>\n",
              "        const buttonEl =\n",
              "          document.querySelector('#df-60821c4d-dd7e-4949-a438-b9c3c4756f4e button.colab-df-convert');\n",
              "        buttonEl.style.display =\n",
              "          google.colab.kernel.accessAllowed ? 'block' : 'none';\n",
              "\n",
              "        async function convertToInteractive(key) {\n",
              "          const element = document.querySelector('#df-60821c4d-dd7e-4949-a438-b9c3c4756f4e');\n",
              "          const dataTable =\n",
              "            await google.colab.kernel.invokeFunction('convertToInteractive',\n",
              "                                                     [key], {});\n",
              "          if (!dataTable) return;\n",
              "\n",
              "          const docLinkHtml = 'Like what you see? Visit the ' +\n",
              "            '<a target=\"_blank\" href=https://colab.research.google.com/notebooks/data_table.ipynb>data table notebook</a>'\n",
              "            + ' to learn more about interactive tables.';\n",
              "          element.innerHTML = '';\n",
              "          dataTable['output_type'] = 'display_data';\n",
              "          await google.colab.output.renderOutput(dataTable, element);\n",
              "          const docLink = document.createElement('div');\n",
              "          docLink.innerHTML = docLinkHtml;\n",
              "          element.appendChild(docLink);\n",
              "        }\n",
              "      </script>\n",
              "    </div>\n",
              "  </div>\n",
              "  "
            ]
          },
          "metadata": {},
          "execution_count": 53
        }
      ]
    },
    {
      "cell_type": "markdown",
      "source": [
        "## Encoding"
      ],
      "metadata": {
        "id": "CnDizUWgw8mt"
      }
    },
    {
      "cell_type": "markdown",
      "source": [
        "### One-hot encoding"
      ],
      "metadata": {
        "id": "sD4bxb_ZawYQ"
      }
    },
    {
      "cell_type": "markdown",
      "source": [
        "One possibility to convert categorical features to features that can be used with scikit-learn estimators is to use a one-of-K, also known as one-hot or dummy encoding. This type of encoding can be obtained with the OneHotEncoder, which transforms each categorical feature with n_categories possible values into n_categories binary features, with one of them 1, and all others 0."
      ],
      "metadata": {
        "id": "3Bjz6-1Ia5bu"
      }
    },
    {
      "cell_type": "code",
      "source": [
        "enc = OneHotEncoder()"
      ],
      "metadata": {
        "id": "WIN8y7hQw-TE"
      },
      "execution_count": 59,
      "outputs": []
    },
    {
      "cell_type": "code",
      "source": [
        "X = [['male', 'from US', 'uses Safari'], ['female', 'from Europe', 'uses Firefox']]\n",
        "enc.fit_transform(X).toarray()"
      ],
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/"
        },
        "id": "mWjuAsRfbaOT",
        "outputId": "f45c543d-5a72-407f-8e1d-c18d828ac5d6"
      },
      "execution_count": 61,
      "outputs": [
        {
          "output_type": "execute_result",
          "data": {
            "text/plain": [
              "array([[0., 1., 0., 1., 0., 1.],\n",
              "       [1., 0., 1., 0., 1., 0.]])"
            ]
          },
          "metadata": {},
          "execution_count": 61
        }
      ]
    },
    {
      "cell_type": "markdown",
      "source": [
        "### Ordinal encoding"
      ],
      "metadata": {
        "id": "M7Qok_qAbtyw"
      }
    },
    {
      "cell_type": "code",
      "source": [
        "enc = OrdinalEncoder()"
      ],
      "metadata": {
        "id": "gE83z6TPbyhD"
      },
      "execution_count": 63,
      "outputs": []
    },
    {
      "cell_type": "code",
      "source": [
        "X = [['male', 'from US', 'uses Safari'], ['female', 'from Europe', 'uses Firefox']]\n",
        "enc.fit_transform(X)"
      ],
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/"
        },
        "id": "tNGy_j8vb1nn",
        "outputId": "c920bd1b-2747-40ca-eae2-5f7aa32e1281"
      },
      "execution_count": 64,
      "outputs": [
        {
          "output_type": "execute_result",
          "data": {
            "text/plain": [
              "array([[1., 1., 1.],\n",
              "       [0., 0., 0.]])"
            ]
          },
          "metadata": {},
          "execution_count": 64
        }
      ]
    },
    {
      "cell_type": "markdown",
      "source": [
        "### Target encoding"
      ],
      "metadata": {
        "id": "AI8gGa6Hb-uc"
      }
    },
    {
      "cell_type": "markdown",
      "source": [
        "The [*MovieLens1M*](https://www.kaggle.com/datasets/odedgolden/movielens-1m-dataset) dataset contains one-million movie ratings by users of the MovieLens website, with features describing each user and movie. This hidden cell sets everything up:"
      ],
      "metadata": {
        "id": "L6S-p3wGcBWA"
      }
    },
    {
      "cell_type": "code",
      "source": [
        "!kaggle datasets download -d odedgolden/movielens-1m-dataset"
      ],
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/"
        },
        "id": "-lwLY-9BcQ3v",
        "outputId": "9b12678f-bcd3-40c9-cfdf-7e87b237c6f3"
      },
      "execution_count": 79,
      "outputs": [
        {
          "output_type": "stream",
          "name": "stdout",
          "text": [
            "Downloading movielens-1m-dataset.zip to /content\n",
            " 86% 5.00M/5.83M [00:00<00:00, 14.3MB/s]\n",
            "100% 5.83M/5.83M [00:00<00:00, 16.5MB/s]\n"
          ]
        }
      ]
    },
    {
      "cell_type": "code",
      "source": [
        "!unzip -qq movielens-1m-dataset.zip"
      ],
      "metadata": {
        "id": "wn0SYAXGcZCB"
      },
      "execution_count": 80,
      "outputs": []
    },
    {
      "cell_type": "code",
      "source": [
        "ratings = pd.read_csv('ratings.dat',sep='::',header=None,names=[\"UserID\", \"MovieID\", \"Rating\", \"Timestamp\"])\n",
        "users = pd.read_csv('users.dat',sep='::',header=None,names=[\"UserID\", \"Gender\", \"Age\", \"Occupation\", \"Zip-code\"])"
      ],
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/"
        },
        "id": "4wGPMf9Ve8JD",
        "outputId": "28c114a1-1127-49bb-df71-ce13ce2f3abf"
      },
      "execution_count": 83,
      "outputs": [
        {
          "output_type": "stream",
          "name": "stderr",
          "text": [
            "/usr/local/lib/python3.7/dist-packages/pandas/util/_decorators.py:311: ParserWarning: Falling back to the 'python' engine because the 'c' engine does not support regex separators (separators > 1 char and different from '\\s+' are interpreted as regex); you can avoid this warning by specifying engine='python'.\n",
            "  return func(*args, **kwargs)\n"
          ]
        }
      ]
    },
    {
      "cell_type": "code",
      "source": [
        "df = pd.merge(left=ratings,right=users,how='inner',on='UserID')"
      ],
      "metadata": {
        "id": "H2C0sdPcfDSC"
      },
      "execution_count": 84,
      "outputs": []
    },
    {
      "cell_type": "code",
      "source": [
        "df = df.astype(np.uint8, errors='ignore') # reduce memory footprint\n",
        "print(\"Number of Unique Zipcodes: {}\".format(df[\"Zip-code\"].nunique()))"
      ],
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/"
        },
        "id": "aCUNX0hxceMo",
        "outputId": "d7b28fad-4fe3-4155-c2d5-f021976f85da"
      },
      "execution_count": 87,
      "outputs": [
        {
          "output_type": "stream",
          "name": "stdout",
          "text": [
            "Number of Unique Zipcodes: 3439\n"
          ]
        }
      ]
    },
    {
      "cell_type": "code",
      "source": [
        "df"
      ],
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/",
          "height": 424
        },
        "id": "zAeyc18vdUGO",
        "outputId": "3689a9a0-ecd5-403d-8cb6-3813d8b28d3d"
      },
      "execution_count": 78,
      "outputs": [
        {
          "output_type": "execute_result",
          "data": {
            "text/plain": [
              "          userId  movieId  rating            timestamp\n",
              "0              1        2       3  2005-04-02 23:53:47\n",
              "1              1       29       3  2005-04-02 23:31:16\n",
              "2              1       32       3  2005-04-02 23:33:39\n",
              "3              1       47       3  2005-04-02 23:32:07\n",
              "4              1       50       3  2005-04-02 23:29:40\n",
              "...          ...      ...     ...                  ...\n",
              "20000258     253       90       4  2009-11-13 15:42:00\n",
              "20000259     253      150       4  2009-12-03 18:31:48\n",
              "20000260     253       12       3  2009-12-07 18:10:57\n",
              "20000261     253      142       5  2009-11-13 15:42:24\n",
              "20000262     253      195       2  2009-10-17 20:25:36\n",
              "\n",
              "[20000263 rows x 4 columns]"
            ],
            "text/html": [
              "\n",
              "  <div id=\"df-4c1edcb6-1a27-44bd-a411-cf8b6ea8bea1\">\n",
              "    <div class=\"colab-df-container\">\n",
              "      <div>\n",
              "<style scoped>\n",
              "    .dataframe tbody tr th:only-of-type {\n",
              "        vertical-align: middle;\n",
              "    }\n",
              "\n",
              "    .dataframe tbody tr th {\n",
              "        vertical-align: top;\n",
              "    }\n",
              "\n",
              "    .dataframe thead th {\n",
              "        text-align: right;\n",
              "    }\n",
              "</style>\n",
              "<table border=\"1\" class=\"dataframe\">\n",
              "  <thead>\n",
              "    <tr style=\"text-align: right;\">\n",
              "      <th></th>\n",
              "      <th>userId</th>\n",
              "      <th>movieId</th>\n",
              "      <th>rating</th>\n",
              "      <th>timestamp</th>\n",
              "    </tr>\n",
              "  </thead>\n",
              "  <tbody>\n",
              "    <tr>\n",
              "      <th>0</th>\n",
              "      <td>1</td>\n",
              "      <td>2</td>\n",
              "      <td>3</td>\n",
              "      <td>2005-04-02 23:53:47</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>1</th>\n",
              "      <td>1</td>\n",
              "      <td>29</td>\n",
              "      <td>3</td>\n",
              "      <td>2005-04-02 23:31:16</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>2</th>\n",
              "      <td>1</td>\n",
              "      <td>32</td>\n",
              "      <td>3</td>\n",
              "      <td>2005-04-02 23:33:39</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>3</th>\n",
              "      <td>1</td>\n",
              "      <td>47</td>\n",
              "      <td>3</td>\n",
              "      <td>2005-04-02 23:32:07</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>4</th>\n",
              "      <td>1</td>\n",
              "      <td>50</td>\n",
              "      <td>3</td>\n",
              "      <td>2005-04-02 23:29:40</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>...</th>\n",
              "      <td>...</td>\n",
              "      <td>...</td>\n",
              "      <td>...</td>\n",
              "      <td>...</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>20000258</th>\n",
              "      <td>253</td>\n",
              "      <td>90</td>\n",
              "      <td>4</td>\n",
              "      <td>2009-11-13 15:42:00</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>20000259</th>\n",
              "      <td>253</td>\n",
              "      <td>150</td>\n",
              "      <td>4</td>\n",
              "      <td>2009-12-03 18:31:48</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>20000260</th>\n",
              "      <td>253</td>\n",
              "      <td>12</td>\n",
              "      <td>3</td>\n",
              "      <td>2009-12-07 18:10:57</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>20000261</th>\n",
              "      <td>253</td>\n",
              "      <td>142</td>\n",
              "      <td>5</td>\n",
              "      <td>2009-11-13 15:42:24</td>\n",
              "    </tr>\n",
              "    <tr>\n",
              "      <th>20000262</th>\n",
              "      <td>253</td>\n",
              "      <td>195</td>\n",
              "      <td>2</td>\n",
              "      <td>2009-10-17 20:25:36</td>\n",
              "    </tr>\n",
              "  </tbody>\n",
              "</table>\n",
              "<p>20000263 rows × 4 columns</p>\n",
              "</div>\n",
              "      <button class=\"colab-df-convert\" onclick=\"convertToInteractive('df-4c1edcb6-1a27-44bd-a411-cf8b6ea8bea1')\"\n",
              "              title=\"Convert this dataframe to an interactive table.\"\n",
              "              style=\"display:none;\">\n",
              "        \n",
              "  <svg xmlns=\"http://www.w3.org/2000/svg\" height=\"24px\"viewBox=\"0 0 24 24\"\n",
              "       width=\"24px\">\n",
              "    <path d=\"M0 0h24v24H0V0z\" fill=\"none\"/>\n",
              "    <path d=\"M18.56 5.44l.94 2.06.94-2.06 2.06-.94-2.06-.94-.94-2.06-.94 2.06-2.06.94zm-11 1L8.5 8.5l.94-2.06 2.06-.94-2.06-.94L8.5 2.5l-.94 2.06-2.06.94zm10 10l.94 2.06.94-2.06 2.06-.94-2.06-.94-.94-2.06-.94 2.06-2.06.94z\"/><path d=\"M17.41 7.96l-1.37-1.37c-.4-.4-.92-.59-1.43-.59-.52 0-1.04.2-1.43.59L10.3 9.45l-7.72 7.72c-.78.78-.78 2.05 0 2.83L4 21.41c.39.39.9.59 1.41.59.51 0 1.02-.2 1.41-.59l7.78-7.78 2.81-2.81c.8-.78.8-2.07 0-2.86zM5.41 20L4 18.59l7.72-7.72 1.47 1.35L5.41 20z\"/>\n",
              "  </svg>\n",
              "      </button>\n",
              "      \n",
              "  <style>\n",
              "    .colab-df-container {\n",
              "      display:flex;\n",
              "      flex-wrap:wrap;\n",
              "      gap: 12px;\n",
              "    }\n",
              "\n",
              "    .colab-df-convert {\n",
              "      background-color: #E8F0FE;\n",
              "      border: none;\n",
              "      border-radius: 50%;\n",
              "      cursor: pointer;\n",
              "      display: none;\n",
              "      fill: #1967D2;\n",
              "      height: 32px;\n",
              "      padding: 0 0 0 0;\n",
              "      width: 32px;\n",
              "    }\n",
              "\n",
              "    .colab-df-convert:hover {\n",
              "      background-color: #E2EBFA;\n",
              "      box-shadow: 0px 1px 2px rgba(60, 64, 67, 0.3), 0px 1px 3px 1px rgba(60, 64, 67, 0.15);\n",
              "      fill: #174EA6;\n",
              "    }\n",
              "\n",
              "    [theme=dark] .colab-df-convert {\n",
              "      background-color: #3B4455;\n",
              "      fill: #D2E3FC;\n",
              "    }\n",
              "\n",
              "    [theme=dark] .colab-df-convert:hover {\n",
              "      background-color: #434B5C;\n",
              "      box-shadow: 0px 1px 3px 1px rgba(0, 0, 0, 0.15);\n",
              "      filter: drop-shadow(0px 1px 2px rgba(0, 0, 0, 0.3));\n",
              "      fill: #FFFFFF;\n",
              "    }\n",
              "  </style>\n",
              "\n",
              "      <script>\n",
              "        const buttonEl =\n",
              "          document.querySelector('#df-4c1edcb6-1a27-44bd-a411-cf8b6ea8bea1 button.colab-df-convert');\n",
              "        buttonEl.style.display =\n",
              "          google.colab.kernel.accessAllowed ? 'block' : 'none';\n",
              "\n",
              "        async function convertToInteractive(key) {\n",
              "          const element = document.querySelector('#df-4c1edcb6-1a27-44bd-a411-cf8b6ea8bea1');\n",
              "          const dataTable =\n",
              "            await google.colab.kernel.invokeFunction('convertToInteractive',\n",
              "                                                     [key], {});\n",
              "          if (!dataTable) return;\n",
              "\n",
              "          const docLinkHtml = 'Like what you see? Visit the ' +\n",
              "            '<a target=\"_blank\" href=https://colab.research.google.com/notebooks/data_table.ipynb>data table notebook</a>'\n",
              "            + ' to learn more about interactive tables.';\n",
              "          element.innerHTML = '';\n",
              "          dataTable['output_type'] = 'display_data';\n",
              "          await google.colab.output.renderOutput(dataTable, element);\n",
              "          const docLink = document.createElement('div');\n",
              "          docLink.innerHTML = docLinkHtml;\n",
              "          element.appendChild(docLink);\n",
              "        }\n",
              "      </script>\n",
              "    </div>\n",
              "  </div>\n",
              "  "
            ]
          },
          "metadata": {},
          "execution_count": 78
        }
      ]
    },
    {
      "cell_type": "markdown",
      "source": [
        "With over 3000 categories, the `Zipcode` feature makes a good candidate for target encoding, and the size of this dataset (over one-million rows) means we can spare some data to create the encoding.\n",
        "\n",
        "We'll start by creating a 25% split to train the target encoder."
      ],
      "metadata": {
        "id": "izYGjAYGcvPo"
      }
    },
    {
      "cell_type": "code",
      "source": [
        "X = df.copy()\n",
        "y = X.pop('Rating')\n",
        "\n",
        "X_encode = X.sample(frac=0.25)\n",
        "y_encode = y[X_encode.index]\n",
        "X_pretrain = X.drop(X_encode.index)\n",
        "y_train = y[X_pretrain.index]"
      ],
      "metadata": {
        "id": "Hd1-Q4QOcrkQ"
      },
      "execution_count": 88,
      "outputs": []
    },
    {
      "cell_type": "markdown",
      "source": [
        "The `category_encoders` package in `scikit-learn-contrib` implements an m-estimate encoder, which we'll use to encode our `Zipcode` feature."
      ],
      "metadata": {
        "id": "diKYE9tPcyMv"
      }
    },
    {
      "cell_type": "code",
      "source": [
        "# Create the encoder instance. Choose m to control noise.\n",
        "encoder = MEstimateEncoder(cols=[\"Zip-code\"], m=5.0)\n",
        "\n",
        "# Fit the encoder on the encoding split.\n",
        "encoder.fit(X_encode, y_encode)\n",
        "\n",
        "# Encode the Zipcode column to create the final training data\n",
        "X_train = encoder.transform(X_pretrain)"
      ],
      "metadata": {
        "id": "7dR_rEULc0eQ"
      },
      "execution_count": 90,
      "outputs": []
    },
    {
      "cell_type": "markdown",
      "source": [
        "Let's compare the encoded values to the target to see how informative our encoding might be."
      ],
      "metadata": {
        "id": "wLCHjAZDc1Vh"
      }
    },
    {
      "cell_type": "code",
      "source": [
        "plt.figure(dpi=90)\n",
        "ax = sns.distplot(y, kde=False, norm_hist=True)\n",
        "ax = sns.kdeplot(X_train[\"Zip-code\"], color='r', ax=ax)\n",
        "ax.set_xlabel(\"Rating\")\n",
        "ax.legend(labels=['Zipcode', 'Rating']);"
      ],
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/",
          "height": 401
        },
        "id": "tbc0-Uzgc2eM",
        "outputId": "2d2e802e-eafa-4795-f01a-0e6503ec5624"
      },
      "execution_count": 94,
      "outputs": [
        {
          "output_type": "stream",
          "name": "stderr",
          "text": [
            "/usr/local/lib/python3.7/dist-packages/seaborn/distributions.py:2619: FutureWarning: `distplot` is a deprecated function and will be removed in a future version. Please adapt your code to use either `displot` (a figure-level function with similar flexibility) or `histplot` (an axes-level function for histograms).\n",
            "  warnings.warn(msg, FutureWarning)\n"
          ]
        },
        {
          "output_type": "display_data",
          "data": {
            "text/plain": [
              "<Figure size 540x360 with 1 Axes>"
            ],
            "image/png": "iVBORw0KGgoAAAANSUhEUgAAAdcAAAFJCAYAAADJ6GfyAAAABHNCSVQICAgIfAhkiAAAAAlwSFlzAAAN1wAADdcBQiibeAAAADh0RVh0U29mdHdhcmUAbWF0cGxvdGxpYiB2ZXJzaW9uMy4yLjIsIGh0dHA6Ly9tYXRwbG90bGliLm9yZy+WH4yJAAAgAElEQVR4nO3deXxU1d3H8c8vJGEPAYKsASpStKigorgVcUFKte5aBdy1Vh5sxdaVVUWqtlYU5VHASitB69OitXWrG65ARVQq4sIqEHZFIISEkPP8cSYYMIGZyc3cmcn3/Xrd1yz3zsxvDkm+nLucY845REREJDgZYRcgIiKSbhSuIiIiAVO4ioiIBEzhKiIiEjCFq4iISMAUriIiIgFTuIqIiAQsM+wCYmVmujBXRERC5Zyzva1PuXAF0MAXIiISFrO95iqg3cIiIiKBU7iKiIgETOEqIiISMIWriIhIwFLyhCYRkbrEOUdZWZlO5kwQMyMzMzOqE5eqo3AVEUlixcXFrFixgp07d4ZdSp1Sr1498vPzadiwYVyvt1T7n5CZuVSrWUQkHs45vvzyS5o0aUJeXl7Y5dQpGzZsYOvWrXTt2vV7PVgzS8/rXEVE6oKysjJ27txJXl4e2dnZYZdTp+Tl5fHtt99SVlZGVlZWzK/XCU0iIklKe+nCF++/gcJVREQkYApXERGpNQUFBRx77LGhfHbPnj2ZOnVqKJ+tY64iIrVk+pyv9rp+YO+OCaqk9hQUFHDNNdd87/ni4mL69u3La6+9xqBBg0KoLFzquYqISNwGDRrE1q1bd1tefPFF6tevz4gRI8IuLzQKVxERCcyqVas4//zzGTduHCeeeCJTp06lZ8+eu9Z37tyZu+66i8MPP5ycnBz69+9PYWHhrvVr1qxh8ODBtG3bltzcXPr06UNxcTEAixYton///rRo0YIuXbowfvz43T77oYceIj8/n5YtWzJ8+PDv1fbqq69y1FFHkZubS/fu3XnuuedqqRUUriIiqaVTJ8jNrf2lU6eYSystLeW8886jX79+XH/99dVuN2XKFKZPn86aNWto06YNgwcPBqC8vJyf/exnZGZm8umnn7JhwwbGjRtHRkYGZWVlnH766fTo0YPCwkKeeeYZ7r33XqZPnw7A66+/zvDhw3n66adZvXo1AJ988smuz5w/fz7nn38+d999N19//TWPPvooF198MZ9//nnM3zMaClcREQnE0KFDKSkpYdKkSXvd7tprr+XAAw+kUaNG3HvvvbzxxhusXLmS999/n4ULF/K///u/NG/enMzMTI4//njq16/PnDlzWL16NWPHjqVBgwYceuihDB06dNcJSwUFBQwaNIhjjjmG7OxsxowZQ+PGjXd95qOPPspll13GSSedREZGBscffzynn346Tz/9dK20hU5oEhFJJcuXh11BlSZNmsSMGTOYO3fuPocM7FSpV9y6dWvq16/PqlWrWL58Oe3bt6/y9StXrqRdu3a7Daax//77M23aNAAKCwvp27fvrnVZWVm0bdt21+Nly5bx+uuv8/jjj+96rqysjJycnJi/azQUriIiUiOzZ89m2LBhPPfcc3Tu3Hmf2y+v9B+EdevWUVJSQvv27QF/zHb79u00aNBgt9d06NCBwsJCduzYsWvEpGXLltGhQwcA2rVrt9v77tixY9fuYYD8/Hx+/etfc/fdd8f9PWOh3cIiIhK3NWvWcO6553LHHXdw8sknR/WaRx99lM8//5zi4mJuvvlm+vTpQ4cOHTjyyCPp1q0bQ4YMYdOmTZSVlfHOO+9QUlLCUUcdRevWrRk1ahQlJSV88sknTJgwgUsvvRSAiy66iIKCAubMmUNpaSl33HEHRUVFuz7zmmuu4fHHH+eNN95g586dlJSUMGvWLBYuXFgr7aJwFRGRuE2aNInCwkJGjx5NkyZNvrdU5YorruCiiy6idevWrFq1ioKCAgAyMjL45z//ybZt2+jWrRt5eXmMGDGC8vJysrKy+Ne//sUHH3xAmzZtOOOMM7jhhhsYOHAgAKeccgp33nkn5557Lm3btqW8vJyDDz5412cedthhPPnkk4wYMYJWrVrRvn17Ro4cSUlJSa20i2bFERGpJTUdRKK0tJTFixfTpUuXtBm4v3PnzowfP56zzjor7FL2am9tH82sOOq5ioiIBEzhKiIiEjCdLSwiIgmzbNmysEtICPVcRUREAqZwFRERCZjCVUREJGAKVxERkYApXEVERAIWariaWUMzW2Rmm8KsQ0REkseAAQOYOHFi2GXUSNiX4twBLAfyQq5DRCRl7GvkpyDsa/Soyvr27cusWbPIysoiOzubQw45hPvuu49evXrt87WXXXYZubm5u018/uKLL8ZVczIJredqZkcAPwHuCasGEREJxj333MPWrVtZs2YNvXv35pxzzgm7pFCFEq5mlglMBv4HKA2jBhERCV52djaXXnopK1asYP369Xz11Vf069ePVq1a0bx5c0477bRdA0k8+OCDFBQUMHHiRJo0aUL37t0B3xOu6MnOnDmT3NxcpkyZQn5+Pi1btuSmm27a7TMnTJiwa92IESPo2bPnrknUwxJWz/VG4EPn3Fv72tDMxpiZq1gSUJuIiMSpuLiYxx57jLy8PJo3b055eTk33HADK1asYPny5TRq1Iirr74agF/96lcMGjSIIUOGsHXrVhYsWFDle27ZsoVPP/2UL7/8knfeeYeHH36YmTNnAvDaa68xatQo/v73v7N69WoyMjKqfZ9ESni4mtkBwC/xAbtPzrkxzjmrWGq3OhERicett95Kbm4ujRs3Zvr06cyYMYPMzEw6d+7MgAEDaNCgATk5OQwfPpy3336b8vLyqN/bOcfYsWNp0KABBx10EMceeywffPABANOnT2fQoEEcddRRZGdnM3LkSBo3blxbXzNqYfRcjwdaA1+Y2QbgH0COmW0ws94h1CMiIjX0u9/9jk2bNrFixQrat2/P/PnzAVi/fj0DBw4kPz+fnJwc+vTpQ0lJCVu2bIn6vXNycmjUqNGux40bN971+sLCQvLz83ety8rKom3btgF9q/iFEa5PAwcAPSPLVcCWyP0PQ6hHREQC0r59eyZPnszNN99MYWEht956K9u2bWPevHls3ryZt97yRwMr5uXOyKhZDLVr144VK1bselxWVsbq1atr9J5BSHi4Oue2OedWVizAev+0W+mc08lNIiIp7vDDD6dv376MGzeOzZs306hRI3Jzc9m4cSO33377btu2bt2aJUuW7ArbWF100UVMnz6duXPnsmPHDsaOHUtRUVEQX6NGQh+hyTk30zmXG3YdIiISnOHDhzNlyhSuu+46Fi1aRPPmzTnuuOMYMGDAbttdddVVrFq1ihYtWnDooYfG/DmnnHIKo0eP5qyzzqJNmzaUlZXxwx/+kPr16wf1VeJi8f5vISxm5lKtZhGpm/Y12MO+BmooLS1l8eLFdOnShezs7CBLS1ulpaW0bNmSl156ieOOO65G71Nd25sZ+zrBNvSeq4iISE3MmDGD4uJiioqKuPnmm2nZsiVHHnlkqDUpXEVEJKU98cQTtG3blnbt2jFv3jyee+650Hv6YY8tLCIiUiPPPPNM2CV8j3quIiIiAVO4iogkKTMNShe2eP8NFK4iIkmqXr16AOzYsSPkSuqeijav+DeIlY65iogkqYyMDJo2bcratWtp3769erIJ4pxj7dq1NG3aNO4RpBSuIiJJrE2bNixdupQlS5aEXUqdkpmZSZs2beJ/fYC1iIhIwDIzMznggAMoKyuLe4hAiY2ZkZmZWaM9BQpXEZEkZ2ZkZWWFXYbEQCc0iYiIBEzhKiIiEjCFq4iISMAUriIiIgFTuIqIiARM4SoiIhIwhauIiEjAFK4iIiIBU7iKiIgETOEqIiISMIWriIhIwBSuIiIiAVO4ioiIBEzhKiIiEjCFq4iISMAUriIiIgFTuIqIiARM4SoiIhIwhauIiEjAFK4iIiIBU7iKiIgETOEqIiISMIWriIhIwBSuIiIiAVO4ioiIBEzhKiIiEjCFq4iISMAywy5ARBJr+pyv9rp+YO+OCapEJH2p5yoiIhIwhauIiEjAFK4iIiIBU7iKiIgETOEqIiISMIWriIhIwBSuIiIiAVO4ioiIBEzhKiIiEjCFq4iISMAUriIiIgELJVzNbIKZrTCzzWa2yszGm1l2GLWIiIgELaye60TgQOdcDtAjstwUUi0iIiKBCmVWHOfcwkoPDSgHuoZRi4iISNBCO+ZqZreY2VZgHb7nOqGa7caYmatYElqkiIhIHEILV+fc3c65JsCPgEeANdVsN8Y5ZxVLQosUERGJQ+hnC0d2EX8MTA25FBERkUCEHq4RWeiYq4iIpImEh6uZNTGzy80s17xDgBHAy4muRUREpDaE0XN1wEBgMbAF+AfwPHB9CLWIiIgELuGX4jjnioB+if5cERGRREmWY64iIiJpQ+EqIiISMIWriIhIwEIZ/lBERCRo0+d8Ve26gb07JrAS9VxFREQCp3AVEREJmMJVREQkYApXERGRgClcRUREAqZwFRERCZjCVUREJGAKVxERkYApXEVERAKmcBUREQmYwlVERCRgMYermWXXRiEiIiLpIp6e62ozm2BmhwVejYiISBqIJ1xPA7KA183sIzP7tZm1DLguERGRlBVzuDrnZjvnfgm0Ae4BBgBfmdn/mdkAM7OgixQREUklcc/n6pwrMbN/ANlAO+BU4DAgw8yucc69ElCNIiIiKSWus4XNrI+ZPQ6sBq4E/gi0dc4dANwG/CW4EkVERFJLzD1XM1sMNMQH6JHOuS8qr3fOPWVmowKqT0REJOXEs1t4GPC8c25ndRs4534Uf0kiIiKpLZ7dwndVFaxm9lEA9YiIiKS8eMK1UzXPd6xJISIiIuki6t3CZvbHyN3sSvcr7A8sCawqERGRFBbLMdfmkduMSvcByoFPgRuCKkpERCSVRR2uzrnLAcxsnnNuQu2VJCIiktqiClcza+qc2xJ5+Gczy6lqO+fc5sAqExERSVHR9lxXARWBuglwe6y3yHP1AqpLREQkZUUbrt0r3f9BbRQiIiKSLqIKV+fcikr3l1deZ2atgDLn3DcB1yYiIpKS4pks/WEzOzpy/3ygEFhrZucGXZyIiEgqimcQiXOAjyP3bwEuAH4CjAmoJhERkZQWz9jCjZ1zxWaWB3R2zj0DYGYaoUlERIT4wnWpmQ0EugJvAJhZLlAaZGEiIiKpKp5w/S0wFR+mZ0eeOx14P6CaREREUlrM4eqcewVov8fTf40sIiIidV48PVfMrDHwQ6DpHqveqnFFIiIiKS7mcDWzC4ApQDZQXGmVA1oEVJeIiEjKiudSnHuB/3HONXDONa+0KFhFRESIL1ybAdOCLkRERCRdxBOu0/ADSYiIiEgV4jmhqRNQYGa/AdZUXuGcU+iKiEidF0+4fhBZREREpArxXOd6e20UIiIiki7iOeaKmZ1oZpPN7J+Rx73M7MRgSxMREUlN8Uw5dxXwBLAW6BN5egdwR4B1iYiIpKx4eq43Aac650YA5ZHnPgUOCqwqERGRFBZPuLZ0zn0aue8q3bpqtt+NmdWP7FJeamZbzOwzM7sijjpERESSUjzh+rGZnbvHc2cA86J8fSawGjgFyAEuA+4zs1PjqEVERCTpxDvl3L8jc7o2MrPpwElA/2he7JwrAkZVemq2mb0BHA/8O456REREkkrMPVfn3DygOzALP4D/R8DhzrmP4ynAzBoARwHz43m9iIhIsomp52pmrYDfACfgZ8D5GtiCP1s4ZmZm+ID+EphRzTZjgNHxvL+IiEgYou65mlkeMBc4DXgVuD9yexrwfmR91CLBOhHoBpzlnCuvajvn3BjnnFUssXyGiIhIGGLpud4CvAcMds7trHgy0rP8M3AzcGM0bxQJ1oeB3sDJzrlvY6hDREQkqcVyzPVU4PbKwQoQeTwWGBDDez0EHAf0c859E8PrREREkl4s4ZrvnPusqhWR59tH8yZm1gkYgt8dvNzMtkaWR2KoRUREJGnFslt4X0EcVVA755YDOnYqIiJpK5ZwrW9m11F9MGYHUI+IiEjKiyVcZwN7mwx9dg1rERERSQtRh6tzrm8t1iEiIpI24prPVURERKqncBUREQmYwlVERCRgClcREZGAKVxFREQCpnAVEREJmMJVREQkYApXERGRgClcRUREAqZwFRERCZjCVUREJGAKVxERkYApXEVERAKmcBUREQmYwlVERCRgClcREZGAKVxFREQCpnAVEREJmMJVREQkYApXERGRgClcRaTu2LABduwIuwqpAxSuIlI3TJ4MbdpAx45wxx2wc2fYFUkaU7iKSHpzDkaPhl/8Asxg3Tr/+IYbwq5M0pjCVUTSV1kZXH2176nm5MDLL8OCBdCqFTz4IDzwQNgVSppSuIpIetq5Ey6/HB57DNq2hbfegpNOggMPhH/8A+rXh2HD/H2RgClcRSQ93XILTJvmj7G++y706PHdumOO8eucg4EDYenS8OqUtKRwFZH088038PDD0LgxvP46/OAH39/mvPPg1lth2zYYNy7xNUpaU7iKSPp54gkoLobBg6FLl+q3u+kmaNYMpk6FZcsSVZ3UAQpXEUkvzsEjj/j711yz921zc+H66/2JT7//fe3XJnVGZtgFSN0wfc5Xe10/sHfHBFUiaW/2bFi4EHr3hsMO2/f2110HY8fC3/8OEyZAhvocUnP6KRKR9PL3v/vbwYOj275lSzj2WFi7Fj78sPbqkjpF4Soi6cM5ePZZf//MM6N/3Wmn+dvnnw++JqmTFK4ikj4WLIDFi6FXL8jPj/51ClcJmMJVRNJHRa/1rLNie1337v562Pff97uHRWpI4Soi6cE5ePppfz+WXcLgxxw+4wz/Hs88E3xtUucoXEUkPcyZA//9rz9DuHv32F9/wQX+9q9/DbYuqZMUriKSHiZN8rcVs9/E6rjjoH17ePNNKCz0z736Knz+eXA1Sp2hcBWR1Pftt/DUU9CokR8rOB4ZGb736pwf4em++6BfP98LHjYMysuDrVnSmsJVRFLf+PF+uMOBA/3UcvG66CJ/e8st8NvfQsOG0KSJf/8XXgimVqkTFK4iktrWrPFDF2Znw2231ey9jjzSz5bTrRs0aAAzZsD99/t1r71W81qlztDwhyKS2kaPhqIiuOGGqme/idWgQb4HW1zsZ9VZvtw///rrNX9vqTPUcxWR1PX22/5EphYtat5rrSwjwwcrQKdOfmad+fNh/frgPkPSmsJVRFLTtm1wxRX+/gMP+DGCa8tJJ/nbmTNr7zMkrShcRSQ1DRsGixbB6af7Xbm1qSJctWtYoqRwFZHU8/TTfndw69YwZUp817XGok8ffztrVu1+jqQNhauIpJYlS+Dqq32gPvGED9ja1rYt5OXBZ5/5idVF9iHh4WpmQ81srpmVmNmzif58EUlhpaVw4YWwebO/FrVfv8R8rpkfTKKkxM+6I7IPYfRcC4GxwOQQPltEks3XX/vdrdEMMzh8uJ+55phj4Pbba7+2yg4+2N9+8kliP1dSUsLD1Tk3wzn3LLAh0Z8tIknm5ZehVSs49lg48EAYMAAmTIC5c/0whJW98AL84Q+QmwtPPglZWYmtVeEqMdAgEiISnvHj/Zi9/fvDwoXw0kt+AX996ZVX+rlZ33sPfv1r//yf/uTXJVpFuC5YkPjPlpST9OFqZmOA0WHXISIBW7HC91zbtoV//cv3VF95BT74wD//7rswapRfAOrV89eznn12OPVWTGOnnqtEIenD1Tk3BhhT8djMXLUbi0jqePxxH6iXXw6ZkT9FP/2pX0aO9CcOTZzoe4q5uTB0KBx/fHj1Nm8O7drBF1/4E5vq1w+vFkl6SR+uIpKmnnjC31aMsrSnLl38tG/J5OCD/Vyvn30GPXqEXY0ksTAuxck0swb4YM8wswZmlp3oOkQkRIWFfnSlgw/2IZoqDjnE386fH24dkvTCuBRnBFAMDAd+Frn/7xDqEJGwzJ7tb485Jtw6YnX44f523rxw65CkF8alOGOcc7bH0jfRdYhIiCqGEVS4SprS8IcikngV4Xr00eHWEauuXf1UdB9+6C8hEqmGwlVEEqu01F9uk5sL3bqFXU1s6tWDnj1hyxYNgyh7pXAVkcT6+GPYvt33WjNS8E+Qdg1LFFLwJ1tEUtq77/rbVDveWqEiXD/4INw6JKkpXEUksV55xd+eeGK4dcSrIlwrzngWqYLCVUQSp7QU3nwTmjRJvZOZKnTvDvn58Pbb8OWXYVcjSUrhKiKJM2sWFBVB376Jn9UmKPXqwS9+4e9PmuRv33nHTyygXcUSoXAVkcSp2CWcqEnOa8uVV/rxkP/0J7jmGjjhBHjwQejVC37727CrkySgcBWRxEmXcG3bFs45x0/0PmkSNGoEN97oLy+6/35YujTsCiVkGrhfRBLjP//xy/77+4nRU91DD8HJJ/tBJU44ATp08MeSR4/2U+ONHx92hRIi9VxFJDFuv93f3nILmIVbSxBatfLHXgcN8sEKcO210KABPPYYbNoUbn0SKoWriNS+OXPghRegc2e47LKwq6k9rVrBxRfD1q1QUBB2NRKiOr1bePqcr6pdN7B3xwRWIpLGnIMbbvD3R45M3bOEo3XllTB5MkybBr1+FnY1EhL1XEWkdj31FLz3nh+T99JLw66m9h11FBxwAMyeTZMVy8KuRkKicBWR2rN9O9x0k7//wAP+GtF0ZwaDBwPQ+eVnQy5GwqJwFZHa88gjsHIlnH029OkTdjWJM2gQAF2ee4p627eHXIyEQeEqIrVj61YYN8735O68M+xqEuuAA+Dss2m8bjXd/vpY2NVICBSuIhK88nK47jpYvx4GDvTj8dY199xDeb1Muv95Ig3XrQm7GkkwhauIBGfHDnjmGbjoIpg6Fdq1g9/9LuyqwtG1K1+cfylZ27Zy8tCLaLhuddgVSQIpXEUkGBs2wCmn+GEBn34a8vLg1Vf9DDJ11EdDbmbFCf3J+WoJJ/1qsI6/1iEKVxGpudJSf8LSW2/5+U6nToUFC+Cgg8KuLFTl2fV5566HWX3Uj2m2bBE9Hrk37JIkQRSuIlJzjz0GCxf6MXbffttfz7rffmFXlRRcZhazR95HSU4zDnzqMfLmzw27JEkAhauI1Mz27XDXXf7+/ff7GWJkN8WtWvPhr0YA0P3PD4dcjSSCwlVEambiRFi1yh9rPeywsKtJWkt/cjZFrdvR/t3XyVn6RdjlSC1TuIpI/DZs8New1qtX965ljZHLzOLzn18BwEEFk0KuRmqbwlVE4uMcDB/up1a75hr40Y/CrijpLTrzQkobN6XzS8/SYMPasMuRWqRwFZHYLVjgJwqfNAmaNfturlbZq7LGTVl09iDqle2g29NTwy5HapHCVUSi5xyMGAE9esAbb/je6gsv+GtaJSqfX3A5OzOz6DpjGmzZEnY5UksUriISvRdf9GcGN2rkzwz+6CM49tiwq0opxfu1YfmpZ5K9dTNMmBB2OVJLFK4iEp0dO+A3v/H3Cwrg+uvTf+LzWvLJ5dexMzPLDw25Vsde05HCVUSiM2UKfPaZP9Z6+ulhV5PStuZ35svzLvEzB40YEXY5UgsUriKyb6Wl3w3A//vf+2nkpEY+ufxX0KKF/0/LJF2ak24UriKyb9OmwYoVvseqgSICUdosF/72N79rfcgQv8t91aqwy5KAKFxFBIDGhSvoOeEueOQRKCv7bkVRkZ/0HPx1rRKcE0+Ev/wFMjPhj3+EAw+ERx/1Z2VLSlO4igj7//Ov/Oz8E/hRwSS49lo/s82bb8LOnTB4MCxeDD/9KRx9dNilpp8LL4Tly33PtbgYfvlLuO++sKuSGlK4itRxDdet5oj7bweMTy4b6qeO++9/oW9faNIEnn0Wunb1PSypHa1bwx/+4GcUysqCUaNg6dKwq5IaULiK1HFH3H87WduKWDjoF8z/5Y0wcyY8+STsv7+/nrVvX3j+eWjZMuxS098xx8Btt/ke7JAh2j2cwhSuInVY3sfv0/GNFylq055PLr/OP2nmd1UuXgwbN/qRmLp2DbfQuuTWW317v/SSXyQlKVxF0lVREXzwAXzzTbWbHPLYAwDMv/oGdjbUPKxJoX59f7kTwG9/u/vJZZIyFK4i6WbjRrjkEsjJgV69oF07f5LM5s27bZb33w9o+5+32dKhE8v6nxVSsVKlM86AE06ATz+FkSO1ezgFZYZdgIgE6Jln/Nm+a9f6Y6RHHAHvvecv73jvPX/sFLCyHRzxxzEALLhsKC5TfwqSihk89BAcfzzcfTesXg1nnukHnahf3x8LP/BAyM4Ou1Kphn6jRFLBtm2wZAm0bbv7iUVbt8Jrr/nLZmbOhA8/9M9feaW/nKNZM79b+Oc/h1degd69aTXqAdq/8yotF85n/SFHsPQn54TylWQfDj4YXn0V+vWDP//ZL5U1aACnnAI33QQ//nE4NUq1FK4iye755/1k5BWj9/ToAf37w9dfw//9H3z77XfbHnCA7/H07//dc82b+/cYMgSmTKHftRcAsKNRY94bM1691mTWq5efO/f552HePH8cvaTET1D/n//Av/7llx//2I9R3K+fhqZMEvqtEklmkyb5YAU/tduGDfDxx34Bv1vwwgvh1FP9Mbof/KDqP65ZWf69undn46TH2bZfWz6/4HKK2ndM3HeR+LRrB1df/f3ny8r8JVPjxvnrY/v39yF7113qySYBhatIsvrrX/3x0+xseOopOPts//xHH/lBHpo0geOOg/32i+79zOD663n5GO0GTguZmXDxxTBwIMyYAWPG+JDt08cH7dixvucrodDZwiLJpKwMvvjCH0e78EJ/lmhBwXfBCtCzp/+jevbZ0QerpK969eD882H+fHjiCT/4x8svw5FH+uDVZAChULiKhGXuXPjFL+DQQ/1lM1lZfunWzV/n2KyZH3rwvPPCrlRSQb16fhzozz7zhwDatfO7jbt1g3vu8dMGSsIoXEUSbcsW39M48kiYPNnv4jWDVq18r+Poo/0g7vPm+esdRWKRleWP0X72md8DUloKt9zi93i8+WbY1dUZOuYqkkhLlvjAXLAAOnXyf/TOPOiVF3oAAAp5SURBVNNfYiMSpKZNfY/1iitg6FB/WU/fvn6AkRtvhO7d/axHixbBypVQXu4DWIcaAqFwFdmbLVv8+K6ffALr1vleQcOG/mSS1av9BOLr1/vLXQ4/3P8R+8EPqn6vl1+GQYP8CEr9+/uTlHJzE/t9pO7p1g3+/W9/gtywYX52o7/8xQ9GUVq6++hPGRn+2tkxY/wkAhK3UMLVzLKA+4FBgAMKgGHOOQ2iKYlRVgZr1kBenr8Yv7ING+C55/wZmK+8Ev2xqpkzYfx4OOcc3zvo0MEH78cf+/d75x2/3bBhcO+9PqBFEqFiMoYBA+DBB/21sUuW+JGe9t/f/4dw507/8/7vf/ulXz9/TsDRR0P79rp+NkZh/XaPAI4HfhR5/CJwG3BHSPVIKnHOX0y/cqXvTW7f7gOyRQvfg3TOj1xUVPTdUlzst/3yS3j/fT+g/bZt/v06dPCj4WRl+T84Cxf6XWTg3+/CC/01pK1b+1AuLoYdO/zj/Hy/G23jRt8Tffhh+Nvf/LKngw6CO++Ec89NXFuJVNasmR+reOTIqtfv3AnTpvme6yuv+AX8+QA9e/pecOvWvte7ZYsfr3rnTh+++fn+dykvzy8tWvjfqTrKXAgDQpvZCnxP9W+Rx+cDf3DOdYritS6omqfP+aradQN71+GL6y+5xI/649x3C+z+OMbn123evttz5hxQcQt5jbOje+9Nm3xIFhfX7Ds2berHZt24EZYt+y5MATp2hNNO8z3QE06I7Q/E9u0wfTrMmuV3G++3n/+DdNxxfjdbvXo1qzsAe/u5hzr+sx+wlG3rsjL45z99D/fDD/1hkR07Yn+fZs2gcWN/rXZ2tu/9Oud/3yoOsVQs9ev7oN65039+5dvSUv/5ZWX+dfXr+/erfHvVVUzfr0e1pQTZ1maGc26vXfmEh6uZNQe+Bro65xZFnusKfAHkOue+3WP7McDohBYpIiKyF8kYrvnAV0Ar59yGyHOtgHVAvnNuZQJrcftqoGSVyrVDatefyrWD6g9TKtcOqV1/omsP4zrXrZHbZpWeq7i/JcG1iIiIBC7h4eqc+wZYCfSs9HRPYMWeu4RFRERSUVgjND0ODDezNmbWBn+m8JQQ6rg9hM8MSirXDqldfyrXDqo/TKlcO6R2/QmtPayzhbOA8cDAyFPT0HWuIiKSJkIJVxERkXSmgftFREQCpnAVEREJmMJVREQkYApXERGRgKVtuJrZUDOba2YlZvbsPrbNMbPpZrbZzNaaWTWjWidOjPXPjGy3tdLSLlG1VlFPfTObbGZLzWyLmX1mZlfsZfukaf84ak+qto/UNMHMVkTac5WZjTez7Gq2TZq2r1RTLPUnXftH6mpoZovMbNNetkm6toeoa0+qdjezqWZWukc91c6ZZ2ZZZvaQmX1jZl9HfuYCncgmbcMVKATGApOj2HYC0ALoCPwYuNrMLqnF2qIRS/0ANzvnmlRaCmuxtn3JBFYDpwA5wGXAfWZ2ajXbJ1P7x1o7JFfbA0wEDnTO5QA9IstN1WybTG1fIZb6IfnaH/wMX8v3sU0ytj1EVzskX7tP3KOeWXvZtvLMbN3x7X9bkMWkbbg652Y4554FNuxtOzNrBFwIjHDObXLOfYH/ob8yAWVWK9r6k5Fzrsg5N8o5t9h5s4E38D/Mu0m29o+l9mTlnFvonCuKPDSgHOi653bJ1vYVoq0/WZnZEcBPgHv2sk1Stn00taeJK4CxzrnVzrnVwF0E3PZpG64x6AZkAx9Veu4j4NBwyonbiMjujQ+T5H+/u5hZA+AoYH4Vq5O6/fdRe4Wka3szu8XMtuInxOiB/8O9p6Rt+yjrr5A07R/ZtTgZ+B+gdC+bJl3bx1B7haRp94hLIvUsMLPfmFmV+WZ+ZrYOfL/tO5pZs6peEw+FKzQBivYYHWoT0DSkeuJxK9AFaA3cAkwws7PDLckzM8MPbfklMKOKTZK2/aOoHZK07Z1zdzvnmuB3ez0CrKlis6Rt+yjrh+Rr/xuBD51zb+1ju2Rs+2hrh+Rr9wfx/2Fphe+B/jqyVKVJ5LbyMeWK+4G1v8LVz9LTaI+D2c1IoRl6nHOznHPfOud2OOdeBh4Ffh52XZFwmoj/oT/LOVdexWZJ2f5R1p60bV/BObcQ+BiYWsXqpGz7yvZRf1K1v5kdAPwSH1L7klRtH2PtSdXukXrmOefWO+d2Rg7l3L2XehIyM5vCFT4HduB3PVXoCfw3nHICUWUQJFIknB4GegOn7mXGo6Rr/xhqr0robV+FLKo+Zpl0bV+N6uqvSpjtfzy+J/eFmW0A/gHkmNkGM+u9x7bJ1vax1F6VZPu5r7aehM3M5pxLywV/1mcD/Bm3z0XuZ1ez7V+AF/D/e+mKP1PuklSoH8gFfgo0AuoBJ+N3cZwfcv0P43scLaPYNqnaP9rak7Ht8bu8Lo/UZsAhwKfApBRp+6jrT7b2j9TRodJyPvBt5H5Vv7tJ0/ax1J5s7R6p6QL82f0G9AKWATfuZfs7gHlAm8gyDxgVaE1hNUYCGnsM4PZYZkbWvQjcVmnbHOBJ/C6BdUE3cm3Wjz/GMAfYHFnmA1eEXHunSL3b8btgKpZHkr39Y6k9Sdu+MfAKsDFS9xLg90CjZG/7WOtPxvbf47v0BTZVepzUbR9t7cnY7sBb+IDfit8rcBOQUWn9IxW/w5HHWfj/RH8TWSYAmUHWpFlxREREAqZjriIiIgFTuIqIiARM4SoiIhIwhauIiEjAFK4iIiIBU7iKiIgETOEqIiISMIWrSB1kZi+a2ZCw6xBJVxpEQiQFmNlM4Bj8eLSl+DFof+OcmxvFa6fiR9u5vjZrFJHvqOcqkjpudn4atjb44eeqmwZPREKmcBVJMc65UuDPQL6ZtTKzjmb2ipmtN7NvzOx5M+sMYGa/AgYBQ8xsq5ktiDw/08yuj9zva2abzOwqM1thZhvN7N7Kn2lm11VaN9bMPjKzyxL4tUVSisJVJMWYWUP8hNAb8IOOZwB/BPLxEw9sAyYDOOceBAqAic65Js657tW8bVP8xORd8dOP/Y+Z9Y183sn4WUTOBdrip/Oq7n1EBIWrSCr5nZltAoqAgcA5zrky59wy59yLzrntzrnNwF3Aj80slt9vA0ZE3mMh8B5wRGTdQKDAOfefSK/5zkgNIlINhatI6rjVOZeL76GuAg4FiOwanh7ZbbsZP/1WfXxvNFqbnXPbKj0uqvT6dsCKihXOuR3A6vi/hkj6U7iKpBjn3CrgauAeM2sH/A4/cfXhzrkcoE9kU4vcltfwIwvxge7f1CwTv3tYRKqhcBVJQc65ecBM4Db8pNvbgE1m1hIYvcfma4H9zcyIz5PAQDPrZWZZwAj8pOYiUg2Fq0jqugu4CpgAHIA/ueld4MU9tpsCtAe+NrP5sX6Ic+5V4HbgWWANkAl8AZTEXblImtMgEiISEzPLBjYCP3HOvRt2PSLJSD1XEdknMzvHzBqaWWPgHny4vh9yWSJJS+EqItG4GH+GcCFwOHBG5LIcEamCdguLiIgETD1XERGRgClcRUREAqZwFRERCZjCVUREJGAKVxERkYApXEVERAKmcBUREQnY/wMHIr4XW8OZQgAAAABJRU5ErkJggg==\n"
          },
          "metadata": {
            "needs_background": "light"
          }
        }
      ]
    },
    {
      "cell_type": "markdown",
      "source": [
        "The distribution of the encoded `Zipcode` feature roughly follows the distribution of the actual ratings, meaning that movie-watchers differed enough in their ratings from zipcode to zipcode that our target encoding was able to capture useful information."
      ],
      "metadata": {
        "id": "P-wHhHRTc3xA"
      }
    },
    {
      "cell_type": "markdown",
      "source": [
        "If you would like to use KFold encoding, take a look at http://contrib.scikit-learn.org/category_encoders/wrapper.html#category_encoders.wrapper.NestedCVWrapper"
      ],
      "metadata": {
        "id": "p2AMPLnSWKpt"
      }
    },
    {
      "cell_type": "markdown",
      "source": [
        "## Data-centric AI with CleanLab"
      ],
      "metadata": {
        "id": "5r0WPZ_Tw-_8"
      }
    },
    {
      "cell_type": "markdown",
      "source": [
        "cleanlab automatically finds and fixes errors in any ML dataset. This data-centric AI package facilitates machine learning with messy, real-world data by providing clean labels during training.\n",
        "\n",
        "You can checkout the tutorials at https://docs.cleanlab.ai/v2.0.0/tutorials/indepth_overview.html"
      ],
      "metadata": {
        "id": "767OerPaf3x-"
      }
    },
    {
      "cell_type": "markdown",
      "source": [
        "## Exploratory Data Analysis"
      ],
      "metadata": {
        "id": "9gvgDcndxCcE"
      }
    },
    {
      "cell_type": "markdown",
      "source": [
        "You can checkout some of useful EDA tools [pandas-profiling](https://github.com/ydataai/pandas-profiling), [dataprep](https://github.com/sfu-db/dataprep), [lux](https://github.com/lux-org/lux) or [pycaret](https://github.com/pycaret/pycaret)"
      ],
      "metadata": {
        "id": "1nxA4ao4gl0K"
      }
    },
    {
      "cell_type": "code",
      "source": [
        ""
      ],
      "metadata": {
        "id": "2LFZJp61iwJS"
      },
      "execution_count": null,
      "outputs": []
    }
  ],
  "metadata": {
    "kernelspec": {
      "display_name": "Python 3",
      "language": "python",
      "name": "python3"
    },
    "language_info": {
      "codemirror_mode": {
        "name": "ipython",
        "version": 3
      },
      "file_extension": ".py",
      "mimetype": "text/x-python",
      "name": "python",
      "nbconvert_exporter": "python",
      "pygments_lexer": "ipython3",
      "version": "3.7.10"
    },
    "nav_menu": {},
    "toc": {
      "navigate_menu": true,
      "number_sections": true,
      "sideBar": true,
      "threshold": 6,
      "toc_cell": false,
      "toc_section_display": "block",
      "toc_window_display": false
    },
    "colab": {
      "name": "10_Clean_feature_engineering.ipynb",
      "provenance": [],
      "collapsed_sections": [],
      "toc_visible": true
    }
  },
  "nbformat": 4,
  "nbformat_minor": 0
}